Bunn (@BunnHack) 在 超越 GPT-5.2!百川智能发布 Baichuan-M3,刷新医疗 AI 评测天花板 中发帖
Baichuan-M3 是百川智能的新一代医疗强化大型语言模型,是继 Baichuan-M2 之后的一项重要里程碑。
与以往主要侧重静态问答或表面化角色扮演的方法不同,Baichuan-M3 被训练为显式建模临床决策过程,旨在提高在真实医疗实践中的可用性和可靠性。模型不仅仅生成“听起来合理”的答案或诸如“你应尽快就医”之类的高频模糊建议,而是被训练为主动获取关键临床信息、构建连贯的医疗推理路径,并系统性地约束易产生幻觉的行为。
核心亮点
🏆 超越 GPT-5.2:在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 上均优于 OpenAI 的最新模型,确立了医疗 AI 的新 SOTA(最佳水平)
🩺 高保真临床询问:在 SCAN-bench 的三个维度——临床询问、化验检测和诊断——中唯一排名第一的模型
🧠 低幻觉、高可靠性:通过 Fact...