dalvqw 在 【起来重睡学算法 Day2】大模型算法全栈基础篇第二章:文本表示与词向量 中发帖
今日无事 勾栏听曲 L站水文
23 天入门大模型算法
原项目如下:
在线阅读地址:LLM 前世今生
第二节 词向量表示
一、为什么需要词向量?
以文本分类这种最基础的 NLP 任务为例,假如我们需要判断一段文本“国足爱吃海参”的是否属于“负面”类别。对于人类来说,理解这串汉字轻而易举,但对于计算机而言,无论是 jieba 分出的词语,还是单个汉字,它们本质上仍然是无法直接理解的“字符串”。机器学习和深度学习模型,无论结构多么复杂,处理的输入都必须是数值形式。具体来说,是由数字组成的特征向量或矩阵。这意味着,模型无法直接“消化”文本数据。
所以,我们的核心任务就是要弥合自然语言(符号世界)与数学模型(向量空间)之间的鸿沟。我们需要一种系统性的方法,将分词后得到的词元序列(如 ["国足", "爱", "吃", "海参"]),整体转换成模型能够处理的一个或一组有意义的数字。这个将符...