dalvqw【起来重睡学算法 Day8】大模型算法全栈实战篇第一章:文本分类 中发帖

今日无事 勾栏听曲 L站水文 😀 
23 天入门大模型算法
原项目如下:


在线阅读地址:LLM 前世今生
前情提要:

第二节 基于 LSTM 的文本分类
在上一节,我们实现了一个基于全连接层的文本分类模型。该模型虽然简单有效,但它的核心是将所有词元的特征向量进行平均池化,这本质上是一种“词袋”模型。这种方法的一个显著局限是它忽略了文本中词语的顺序,而语序在多数 NLP 任务中是很重要的。
那么,对于文本分类任务,捕捉序列信息是否总能带来性能提升呢?为了验证这一点,我们自然会想到循环神经网络(RNN)及其变体,如LSTM。在第三章第二节中我们已经学习了 LSTM 的原理。理论上,它能够通过处理序列信息来捕捉更丰富的语义。本节将进行一次实验,我们将上一节的全连接模型改造为基于LSTM的模型,来探索在本新闻分类任务上,序列建模是否会比简单的词袋模型更有效。
一、从“词袋”到序列...