变色龙 (@bianselong) 在 DeepSeek能否一直火下去? 中发帖
2024年中国大模型圈最火的是哪家?杭州深度求索人工智能基础技术研究有限公司(以下简称DeepSeek)一定榜上有名,如果说作为去年年中大模型价格战的发起者,DeepSeek初入公众视野,到了岁末年初先后对外发布开源模型DeepSeek-V3和推理模型DeepSeek-R1后,DeepSeek彻底引爆了大模型圈的舆论场。人们一边惊讶于其高性价比的训练成本(据说DeepSeek-V3仅花费了557.6万美元的训练成本),另一方面为其模型开源和公开技术报告的行为鼓掌称赞。DeepSeek-R1的发布,让不少科学家、开发者和用户们都兴奋不已,甚至认为DeepSeek是OpenAI的o1等推理模型强有力的竞争对手。
这家低调的公司为何可以做到用极低的训练成本做出性能不差的大模型?它今天的火爆得益于它做对了什么?在未来的日子里,它要想继续在“模圈”乘风破浪一路向前将会面临怎样的挑战?
算法创新使...