dalvqw 在【起来重睡学算法 Day10】大模型算法全栈理论篇第四章：注意力机制与Transformer 中发帖今日无事勾栏听曲 L站水文 😀 23 天入门大模型算法原项目如下：在线阅读地址：LLM 前世今生第二节注意力机制在上一节的结尾，讨论了标准 Seq2Seq 架构存在的一个核心缺陷：信息瓶颈

dalvqw 在【起来重睡学算法 Day10】大模型算法全栈理论篇第四章：注意力机制与Transformer 中发帖

今日无事 勾栏听曲 L站水文 😀 
23 天入门大模型算法 
原项目如下： 


在线阅读地址：LLM 前世今生 
第二节 注意力机制
在上一节的结尾，讨论了标准 Seq2Seq 架构存在的一个核心缺陷：信息瓶颈。编码器需要将源序列的所有信息，不论长短，全部压缩成一个固定长度的上下文向量 C。这种机制在处理长序列时，很容易丢失序列开头的关键信息，同时也无法让解码器在生成不同词元时，有选择性地关注输入的不同部分。用上一节提到的对联任务举例，当上联是“两个黄鹂鸣翠柳”时，期望模型在生成下联时： 

生成第一个词“一行”时，主要关注上联的“两个”。
生成第二个词“白鹭”时，主要关注上联的“黄鹂”。
…

但是标准的 Seq2Seq 架构的模型在生成“一行”、“白鹭”、“上青天”的每一个词时，所依赖的都是同一个、包含了整个上联概要的上下文向量 C。模型缺乏一种动态的、有倾向性的“关注”能力。为了解...