dalvqw 在 【起来重睡学算法 Day6】大模型算法全栈理论篇第三章:循环神经网络 中发帖
今日无事 勾栏听曲 L站水文 😀
23 天入门大模型算法
原项目如下:
在线阅读地址:LLM 前世今生
第一节 循环神经网络
一、如何处理序列信息?
我们已经学习了如何将文本进行分词,并通过词嵌入技术(如 Word2Vec)将每个独立的词元转换成一个静态的、稠密的词向量。这解决了模型输入的第一个问题,即文本数值化。接下来的第二个关键问题是如何从一个词向量序列中,有效地提取整个序列的特征。例如,对于一个意图识别任务,需要将指令“播放周杰伦的《稻香》”归类到“音乐播放”。目前已经能得到“播放”、“周杰伦”、“的”、“《稻香》”这几个词元各自的词向量,但如何将这些向量融合成一个能代表整句指令含义的“文本向量”,并送入分类器呢?
1.1 简单方法的局限性
针对将词向量序列融合成一个定长的文本向量这一需求,早期的解决方案主要集中在对词向量的简单组合上。最直接的思路是像词袋法一样,将所有...