dalvqw 在【起来重睡学算法 Day9】大模型算法全栈理论篇第四章：注意力机制与Transformer 中发帖鸽了一周 🥹 今日无事勾栏听曲 L站继续水文 😀 23 天入门大模型算法原项目如下：在线阅读地址：LLM 前世今生第一节 Seq2Seq 架构前面我们已经学习了如何使用 RNN 和 LSTM 处理序列数据

dalvqw 在【起来重睡学算法 Day9】大模型算法全栈理论篇第四章：注意力机制与Transformer 中发帖

鸽了一周 🥹 
今日无事 勾栏听曲 L站继续水文 😀 
23 天入门大模型算法 
原项目如下： 


在线阅读地址：LLM 前世今生 
第一节 Seq2Seq 架构
前面我们已经学习了如何使用 RNN 和 LSTM 处理序列数据。这些模型在三类任务中表现出色： 

多对一（Many-to-One）：将整个序列信息压缩成一个特征向量，用于文本分类、情感分析等任务。
多对多（Many-to-Many, Aligned）：为输入序列的每一个词元（Token）都生成一个对应的输出，如词性标注、命名实体识别等。
一对多（One-to-Many）：从一个固定的输入（如一张图片、一个类别标签）生成一个可变长度的序列，例如图像描述生成、音乐生成等。

但是，在自然语言处理中，还存在一类更复杂的、被称为多对多（Many-to-Many, Unaligned） 的任务，它们的输入序列和输出序列的长度可能不相等，...