arch 在 传统的LinearLayer的替换方案 - Tversky投影层 中发帖
Stanford的Jurafsky和Manning团队发了篇新论文,提了一个很底层的改动:用“Tversky投影层”取代传统的LinearLayer”。
核心逻辑是:现在的深度学习还在用卷积这种几何相似度,这其实不符合人类认知的“不对称性”。他们把Tversky相似度做成了可微的算子。结果很有意思:
1.能解XOR:Tversky层能直接模拟XOR这种非线性函数,线性层做不到。
2.瘦身显著:在GPT-2上,参数量砍了34.8%,Perplexity还降了7.8%。
3.即插即用:可以像nn.Linear一样直接替换。
感觉是对Transformer内部MLP模块的一次降维打击。为思考现代深度学习中隐含的相似性模型以及设计在心理相似性理论下可解释的神经网络提供了一个新的范式。