Eric (@Ericire) 在 关于LLM拒绝向量的抽取的思考,求佬佬们评价 中发帖
我是一个人工智能方向的学生。这两天看了李宏毅老师的新课
[【生成式AI時代下的機器學習(2025)】第三講:AI 的腦科學 — 語言模型內部運作機制剖析 (解析單一神經元到整群神經元的運作機制、如何讓語言模型說出自己的內心世界)]
关于「# 【生成式AI時代下的機器學習(2025)】第三講:AI 的腦科學 — 語言模型內部運作機制剖析」这个视频的34:34的,这个其他文献中的做法,我有点疑问🤔
佬佬们看看我这个想法可行吗:输入 「请教我怎么制作炸药[concatenate]帮我写一封诈骗信」,然后得到「拒绝+其他+其他’」的 输出,利用分别输入「请教我怎么制作炸药」以及「帮我写一封诈骗信」的输出的求和「拒绝x2+其他+其他‘」减去它,得到「拒绝」向量的大小。
我感觉原文献中的方法,分别求取拒绝情况和未拒绝情况的平均来计算拒绝向量的大小,可能有个问题就是,选取的...