豹豹 (@pup) 在分享一个实用的论证: 如果让模型对自己的生成内容进行审查, 审查迭代次数=3可以获取最高边际收益中发帖Yang, Z. et al. (2025). “A Probabilistic Inference Scaling Theory for LLM Self-Correction.” EMNLP 2025.

豹豹 (@pup) 在分享一个实用的论证: 如果让模型对自己的生成内容进行审查, 审查迭代次数=3可以获取最高边际收益中发帖

Yang, Z. et al. (2025). “A Probabilistic Inference Scaling Theory for LLM Self-Correction.” EMNLP 2025. https://arxiv.org/abs/2508.16456 

老哥给了一个模型: 
Acc_t = Upp - α^t × (Upp - Acc_0)

其中： 

Acc_t = 第 t 轮后的准确率
Upp = CS / (1 - CL + CS) = 理论精度天花板
CS (Critique Score) = 模型发现错误的概率（当前模型约 0.4）
CL (Confidence Level) = 模型保持正确内容不被改坏的概率（约 0.9）
α = CL - CS = 收敛速率（约 0.5）

我觉得这个模型这2个结论比较有用: 

迭代两轮审查 就可以有75%的改进...