dalvqw【起来重睡学算法 Day3】大模型算法全栈基础篇第二章:文本表示与词向量 中发帖

今日无事 勾栏听曲 L站水文 
23 天入门大模型算法


在线阅读地址:LLM 前世今生
第三节 从主题模型到 Word2Vec
一、寻找理想的词向量
无论是哑编码还是序号化,它们本身都存在一个根本性的缺陷,那就是无法表达词与词之间的语义关系。在这些表示方法中,不同词的向量通常是正交的(如哑编码),或者其 ID 大小关系是随机的,导致模型无法理解“国王”与“女王”的语义比“国王”与“苹果”更近。为了解决这个问题,分布式表示(Distributed Representation)被提出,目的是将词语映射到一个低维、稠密、且蕴含丰富语义信息的连续向量空间中。理想中的词向量需要同时满足语义蕴含和低维稠密两个主要目标。语义蕴含要求向量之间的距离能够度量词语之间的语义相似度,这背后的原理就是分布式假设的朴素应用,也就是说如果两个词经常在相似的上下文中共同出现,那么它们的向量在空间上应该是彼此靠...