dalvqw 在【起来重睡学算法 Day8】大模型算法全栈实战篇第一章：文本分类中发帖今日无事勾栏听曲 L站水文 😀 23 天入门大模型算法原项目如下：在线阅读地址：LLM 前世今生前情提要：第二节基于 LSTM 的文本分类在上一节，我们实现了一个基于全连接层的文本分类模型

dalvqw 在【起来重睡学算法 Day8】大模型算法全栈实战篇第一章：文本分类中发帖

今日无事 勾栏听曲 L站水文 😀 
23 天入门大模型算法 
原项目如下： 


在线阅读地址：LLM 前世今生 
前情提要： 

第二节 基于 LSTM 的文本分类
在上一节，我们实现了一个基于全连接层的文本分类模型。该模型虽然简单有效，但它的核心是将所有词元的特征向量进行平均池化，这本质上是一种“词袋”模型。这种方法的一个显著局限是它忽略了文本中词语的顺序，而语序在多数 NLP 任务中是很重要的。 
那么，对于文本分类任务，捕捉序列信息是否总能带来性能提升呢？为了验证这一点，我们自然会想到循环神经网络（RNN）及其变体，如LSTM。在第三章第二节中我们已经学习了 LSTM 的原理。理论上，它能够通过处理序列信息来捕捉更丰富的语义。本节将进行一次实验，我们将上一节的全连接模型改造为基于LSTM的模型，来探索在本新闻分类任务上，序列建模是否会比简单的词袋模型更有效。 
一、从“词袋”到序列...