dalvqw 在 【起来重睡学算法 Day9】大模型算法全栈理论篇第四章:注意力机制与Transformer 中发帖
鸽了一周 🥹
今日无事 勾栏听曲 L站继续水文 😀
23 天入门大模型算法
原项目如下:
在线阅读地址:LLM 前世今生
第一节 Seq2Seq 架构
前面我们已经学习了如何使用 RNN 和 LSTM 处理序列数据。这些模型在三类任务中表现出色:
多对一(Many-to-One):将整个序列信息压缩成一个特征向量,用于文本分类、情感分析等任务。
多对多(Many-to-Many, Aligned):为输入序列的每一个词元(Token)都生成一个对应的输出,如词性标注、命名实体识别等。
一对多(One-to-Many):从一个固定的输入(如一张图片、一个类别标签)生成一个可变长度的序列,例如图像描述生成、音乐生成等。
但是,在自然语言处理中,还存在一类更复杂的、被称为多对多(Many-to-Many, Unaligned) 的任务,它们的输入序列和输出序列的长度可能不相等,...