作业君 (@homeworkkun) 在国产AI在世界舞台上属于什么水平呢？我跑了60个国产模型的livebench 中发帖[image] 部分因为太贵等原因没全跑完的模型： moonshot-v1-128k：data_analysis比8k略差 ernie-4.0-turbo-8k：data_analysis46.3/48/24.82/66，接近文心3.5，已写入data_analysis表格 ernie-4.0-8k-latest：data_analysis47.8/48/27.32/68，接近文心3.5，已写入data_analysis表格 qwen-coder-turbo-128k-240919：coding43.8/43.59/44，接近glm-4-plus，已写入coding表格 qwen-coder-plus-128k-241106：coding54.9/53.846/56，略微低于qwen2.5-coder-32b-instruct，已写入coding表格 hunyuan-cod...

作业君 (@homeworkkun) 在国产AI在世界舞台上属于什么水平呢？我跑了60个国产模型的livebench 中发帖

[image] 
部分因为太贵等原因没全跑完的模型： 
moonshot-v1-128k：data_analysis比8k略差 
ernie-4.0-turbo-8k：data_analysis46.3/48/24.82/66，接近文心3.5，已写入data_analysis表格 
ernie-4.0-8k-latest：data_analysis47.8/48/27.32/68，接近文心3.5，已写入data_analysis表格 
qwen-coder-turbo-128k-240919：coding43.8/43.59/44，接近glm-4-plus，已写入coding表格 
qwen-coder-plus-128k-241106：coding54.9/53.846/56，略微低于qwen2.5-coder-32b-instruct，已写入coding表格 
hunyuan-cod...