dalvqw【起来重睡学算法 Day11】大模型算法全栈理论篇第四章:注意力机制与Transformer 中发帖

今日无事 勾栏听曲 L站水文 😀 
23 天入门大模型算法
原项目如下:


在线阅读地址:LLM 前世今生
第三节 深入解析 Transformer
注意力机制通过动态加权的方式,克服了传统 Seq2Seq 模型中的“信息瓶颈”问题。但是,这些模型依然依赖于 RNN 来处理序列信息,也就是说它们必须按顺序,一个词元接一个词元地进行计算,这在处理长序列时效率低下,并且存在长距离依赖信息丢失的问题。
2017年,Google 的研究团队发表了一篇名为《Attention Is All You Need》的论文,提出了一种全新的架构——Transformer [1]。这篇论文的标题很有冲击力,其思想也同样有颠覆性。它抛弃了传统的 RNN 和卷积网络,整个模型基于注意力机制来构建。Transformer 的提出在自然语言处理领域具有划时代的意义。它不仅凭借其出色的并行计算能力极大地提升了...