chen (@qishangc)关于ai的可解释性、人机对齐或评测,想听听佬友们的建议和看法 中发帖

本人背景:文科专业,纯小白,上手摸索了微调,尝试自己练小模型 
大概是去年8月份左右,有一个想法和chatgpt沟通的,当时感觉ai和人类大脑有点像,所以想要了解ai是怎么想的,ai在接触不同的情况时会有何种反应(当时chatgpt取了个名字叫“模型心理学”),这个是不是就是ai的可解释性?感觉这完全不是我能涉及的领域,哈哈
然后在和ai的交互过程中,感觉自己也有受到模型的影响(我自己很容易受影响,比如大量和模型对话后,有时候想问题也变成了结构化的内容和表述,当然效果也短暂,得持续影响),所以对人和大模型交互过程中的相互影响感兴趣,关于大模型如何影响人,会有什么影响,是好是坏,如何利用大模型更好的影响自身之类的
当时chatgpt有给我推荐过一本书《The Alignment Problem》,虽然还没有看完(搁置了一段时间),对其中被嵌入模型的价值判断(训练数据本身带有的价值判断、歧...