moo yoo (@Chinyen)大家一起讨论一个自己用的最好的LLM 中发帖

众所周知,各大厂商在对比大型模型时,往往依赖标准测试集来评测性能。 
然而,高分真的能代表用户的真实使用体验吗 🤔二者之间往往存在显著差距,比如回答长度,语气…
更何况测试集多以英文为主,国内外在语言体系和知识结构上都有很大差异,训练集更有不同。
因此,诚邀各位佬畅所欲言——在中国语境下,哪款大模型的回答最贴合我们的知识体系?
欢迎各抒己见!