怒 天 (@user1703)怎么量化测评提示词的性能呢 中发帖

大多数时候,我们写提示词都是随便写的,或者按照某个模板,但是一般来说不会反复对比哪个提示词更好,而且很多问题上没法直观对比。 
指定角色,让他反复思考,锁定某些数据源,严格规范输出,这些到底会不会对模型性能产生影响,产生多大影响,在通用任务中该如何量化呢。