@FFattiger 在 MUST 要大于 must，一个有意思的社区讨论中发帖在opencode问问题的时候发现大佬们在讨论提示词中大写的必要性问题

@FFattiger 在 MUST 要大于 must，一个有意思的社区讨论中发帖

在opencode问问题的时候发现大佬们在讨论提示词中大写的必要性问题。觉得挺有意思，遂搬运。 
大佬的观点：

这些大语言模型的训练数据覆盖了整个互联网，或者说，囊括了训练人员能够轻松抓取到的所有网络内容。互联网工程任务组（IETF）的网站很容易被抓取，因此，这些模型在训练阶段已经读取了全部的请求注解文档（RFC），没有遗漏任何一份。 


大语言模型的分词器并非以逐字母的方式处理文本：以 “must” 和 “MUST” 为例，二者会被识别为两个完全不同的标记。你可以访问 GPT 分词工具（https://platform.openai.com/tokenizer），输入 “must MUST”，就能看到二者对应不同的编码数字。 


这两个不同的标记，与其他标记之间的权重关联是不一样的。而请求注解文档（RFC）中的专业用语，在技术规范里本身就指代非常特定的含义。因此，在这些模型训练过程...