怒天 (@user1703) 在怎么量化测评提示词的性能呢中发帖大多数时候，我们写提示词都是随便写的，或者按照某个模板，但是一般来说不会反复对比哪个提示词更好，而且很多问题上没法直观对比

怒天 (@user1703) 在怎么量化测评提示词的性能呢中发帖

大多数时候，我们写提示词都是随便写的，或者按照某个模板，但是一般来说不会反复对比哪个提示词更好，而且很多问题上没法直观对比。 
指定角色，让他反复思考，锁定某些数据源，严格规范输出，这些到底会不会对模型性能产生影响，产生多大影响，在通用任务中该如何量化呢。