kejun (@ke_jun) 在 250303 三花AI日报:OlmOCR:最强开源 OCR 解决方案;PhotoDoodle:开源照片涂鸦框架;DeepSeek 公布高效系统设计,理论利润率高达 545%;CSM:超真实 AI 语音模型;Search-R1:首个开源复现 DeepSeek-R1 模型; 中发帖
Search-R1:首个开源复现 DeepSeek-R1 的创新强化学习模型
Search-R1 通过强化学习(RL)训练模型,使 3B 参数的小模型能够在推理过程中自主调用工具(如搜索)。
Search-R1 的灵感来源于 DeepSeek-R1,是首个成功复现 DeepSeek-R1 方法并加以创新的开源项目。
Conversational Speech Model:超真实 AI 语音模型
[图片]
Sesame 团队弄了个叫 Conversational Speech Model (CSM) 的语音技术,其主要目的是解决现阶段语音助手那种“死板”的问题,让人觉得是在跟一个真人在说话,能听懂你情绪,还能跟你聊出点感觉来
他们还设计了两个演示角色:Maya(女声)和 Miles(男声)。我看了一些反馈,确实有点东西。
例如,当你停下来不说话时,Maya 会主动询问“你咋了...