dalvqw 在【起来重睡学算法 Day2】大模型算法全栈基础篇第二章：文本表示与词向量中发帖今日无事勾栏听曲 L站水文 23 天入门大模型算法原项目如下：在线阅读地址：LLM 前世今生第二节词向量表示一、为什么需要词向量？以文本分类这种最基础的 NLP 任务为例，假如我们需要判断一段文本“国足爱吃海参”的是否属于“负面”类别

dalvqw 在【起来重睡学算法 Day2】大模型算法全栈基础篇第二章：文本表示与词向量中发帖

今日无事 勾栏听曲 L站水文 
23 天入门大模型算法 
原项目如下： 


在线阅读地址：LLM 前世今生 
第二节 词向量表示
一、为什么需要词向量？
以文本分类这种最基础的 NLP 任务为例，假如我们需要判断一段文本“国足爱吃海参”的是否属于“负面”类别。对于人类来说，理解这串汉字轻而易举，但对于计算机而言，无论是 jieba 分出的词语，还是单个汉字，它们本质上仍然是无法直接理解的“字符串”。机器学习和深度学习模型，无论结构多么复杂，处理的输入都必须是数值形式。具体来说，是由数字组成的特征向量或矩阵。这意味着，模型无法直接“消化”文本数据。 
所以，我们的核心任务就是要弥合自然语言（符号世界）与数学模型（向量空间）之间的鸿沟。我们需要一种系统性的方法，将分词后得到的词元序列（如 ["国足", "爱", "吃", "海参"]），整体转换成模型能够处理的一个或一组有意义的数字。这个将符...