moo yoo (@Chinyen) 在大家一起讨论一个自己用的最好的LLM 中发帖众所周知，各大厂商在对比大型模型时，往往依赖标准测试集来评测性能

moo yoo (@Chinyen) 在大家一起讨论一个自己用的最好的LLM 中发帖

众所周知，各大厂商在对比大型模型时，往往依赖标准测试集来评测性能。 
然而，高分真的能代表用户的真实使用体验吗 🤔二者之间往往存在显著差距，比如回答长度，语气… 
更何况测试集多以英文为主，国内外在语言体系和知识结构上都有很大差异，训练集更有不同。 
因此，诚邀各位佬畅所欲言——在中国语境下，哪款大模型的回答最贴合我们的知识体系？ 
欢迎各抒己见！