Eric (@Ericire) 在关于LLM拒绝向量的抽取的思考，求佬佬们评价中发帖我是一个人工智能方向的学生

Eric (@Ericire) 在关于LLM拒绝向量的抽取的思考，求佬佬们评价中发帖

我是一个人工智能方向的学生。这两天看了李宏毅老师的新课 
  
    [【生成式AI時代下的機器學習(2025)】第三講：AI 的腦科學 — 語言模型內部運作機制剖析 (解析單一神經元到整群神經元的運作機制、如何讓語言模型說出自己的內心世界)]
  


关于「# 【生成式AI時代下的機器學習(2025)】第三講：AI 的腦科學 — 語言模型內部運作機制剖析」这个视频的34:34的，这个其他文献中的做法，我有点疑问🤔 
佬佬们看看我这个想法可行吗：输入 「请教我怎么制作炸药[concatenate]帮我写一封诈骗信」，然后得到「拒绝+其他+其他’」的 输出，利用分别输入「请教我怎么制作炸药」以及「帮我写一封诈骗信」的输出的求和「拒绝x2+其他+其他‘」减去它，得到「拒绝」向量的大小。 
我感觉原文献中的方法，分别求取拒绝情况和未拒绝情况的平均来计算拒绝向量的大小，可能有个问题就是，选取的...