kejun (@ke_jun) 在 250114 三花AI日报:一坤半天低成本训练扩散模型; Mistral 发布 Codestral 25.01编程模型 中发帖
micro_diffusion:2.5 天低成本训练 11.6 亿参数扩散模型
[图片]
micro_diffusion 是一个开源方法,旨在通过充分利用每一刀从零开始训练大规模扩散模型。
任何人只需使用 8 个 H100 GPU,在短短 2.5 天内,就能以 1890 美元的超低成本,用 3700 万张公开可用的真实和合成图像,训练出一个 11.6 亿参数的稀疏 Transformer。
这比 Stable Diffusion 的训练成本低 118 倍!不过,从论文的基准测试来看,模型生成的图片质量仅略优于 SD1.5,放到现在可能有点不够看。
Mistral 发布性能领先的编程模型 Codestral 25.01
[图片]
Mistral 最新推出的编程模型Codestral 25.01 现已登陆 Continue.dev 平台。开发者可以通过 VSCode 和 Je...