BitByte【分享】R1 满血测试的 Dify 工作流(含1000个数学问题,一次性测个够) 中发帖

想知道使用的R1大模型是否在「背诵答案」📚


想知道使用的R1大模型是否「不满血」🤥


想知道使用的R1大模型是否会深度思考「被截断」

该Dify工作流通过

选择1000道OpenR1-Math-220k的题目
改变题目形式
改变题目的语言风格
改变题目的语序

使得修改后的题目区分于原始题目,从而来测试大模型是否仍然能正确回答问题。

DIFY DSL 文件下载:
百变测试题V0.1.0-案例-Dify-0_15_3-阿里百炼-DeepSeekR1(分享版).yml.zip (131.1 KB)

注意:开放数据集没办法用作评估R1性能,只能拿来判断是否为满血R1。
Dify 如何部署,可B站搜索教程安装

工作流 效果展示
[image-2]
👰追妻小说风格
原始题目
1+1 等于几?

转换后的题目
他冷冷地看着她,眼中闪过一丝复杂的情绪...