作业君 (@homeworkkun)国产AI在世界舞台上属于什么水平呢?我跑了60个国产模型的livebench 中发帖

[image] 
部分因为太贵等原因没全跑完的模型:
moonshot-v1-128k:data_analysis比8k略差
ernie-4.0-turbo-8k:data_analysis46.3/48/24.82/66,接近文心3.5,已写入data_analysis表格
ernie-4.0-8k-latest:data_analysis47.8/48/27.32/68,接近文心3.5,已写入data_analysis表格
qwen-coder-turbo-128k-240919:coding43.8/43.59/44,接近glm-4-plus,已写入coding表格
qwen-coder-plus-128k-241106:coding54.9/53.846/56,略微低于qwen2.5-coder-32b-instruct,已写入coding表格
hunyuan-cod...