dalvqw 在 【起来重睡学算法 Day10】大模型算法全栈理论篇第四章:注意力机制与Transformer 中发帖
今日无事 勾栏听曲 L站水文 😀
23 天入门大模型算法
原项目如下:
在线阅读地址:LLM 前世今生
第二节 注意力机制
在上一节的结尾,讨论了标准 Seq2Seq 架构存在的一个核心缺陷:信息瓶颈。编码器需要将源序列的所有信息,不论长短,全部压缩成一个固定长度的上下文向量 C。这种机制在处理长序列时,很容易丢失序列开头的关键信息,同时也无法让解码器在生成不同词元时,有选择性地关注输入的不同部分。用上一节提到的对联任务举例,当上联是“两个黄鹂鸣翠柳”时,期望模型在生成下联时:
生成第一个词“一行”时,主要关注上联的“两个”。
生成第二个词“白鹭”时,主要关注上联的“黄鹂”。
…
但是标准的 Seq2Seq 架构的模型在生成“一行”、“白鹭”、“上青天”的每一个词时,所依赖的都是同一个、包含了整个上联概要的上下文向量 C。模型缺乏一种动态的、有倾向性的“关注”能力。为了解...