chen (@qishangc) 在关于ai的可解释性、人机对齐或评测，想听听佬友们的建议和看法中发帖本人背景：文科专业，纯小白，上手摸索了微调，尝试自己练小模型大概是去年8月份左右，有一个想法和chatgpt沟通的，当时感觉ai和人类大脑有点像，所以想要了解ai是怎么想的，ai在接触不同的情况时会有何种反应（当时chatgpt取了个名字叫“模型心理学”），这个是不是就是ai的可解释性？感觉这完全不是我能涉及的领域，哈哈然后在和ai的交互过程中，感觉自己也有受到模型的影响（我自己很容易受影响，比如大量和模型对话后，有时候想问题也变成了结构化的内容和表述，当然效果也短暂，得持续影响），所以对人和大模型交互过程中的相互影响感兴趣，关于大模型如何影响人，会有什么影响，是好是坏，如何利用大模型更好的影响自身之类的当时chatgpt有给我推荐过一本书《The Alignment Problem》，虽然还没有看完（搁置了一段时间），对其中被嵌入模型的价值判断（训练数据本身带有的价值判断、歧...

chen (@qishangc) 在关于ai的可解释性、人机对齐或评测，想听听佬友们的建议和看法中发帖

本人背景：文科专业，纯小白，上手摸索了微调，尝试自己练小模型 
大概是去年8月份左右，有一个想法和chatgpt沟通的，当时感觉ai和人类大脑有点像，所以想要了解ai是怎么想的，ai在接触不同的情况时会有何种反应（当时chatgpt取了个名字叫“模型心理学”），这个是不是就是ai的可解释性？感觉这完全不是我能涉及的领域，哈哈 
然后在和ai的交互过程中，感觉自己也有受到模型的影响（我自己很容易受影响，比如大量和模型对话后，有时候想问题也变成了结构化的内容和表述，当然效果也短暂，得持续影响），所以对人和大模型交互过程中的相互影响感兴趣，关于大模型如何影响人，会有什么影响，是好是坏，如何利用大模型更好的影响自身之类的 
当时chatgpt有给我推荐过一本书《The Alignment Problem》，虽然还没有看完（搁置了一段时间），对其中被嵌入模型的价值判断（训练数据本身带有的价值判断、歧...