dalvqw 在【起来重睡学算法 Day3】大模型算法全栈基础篇第二章：文本表示与词向量中发帖今日无事勾栏听曲 L站水文 23 天入门大模型算法在线阅读地址：LLM 前世今生第三节从主题模型到 Word2Vec一、寻找理想的词向量无论是哑编码还是序号化，它们本身都存在一个根本性的缺陷，那就是无法表达词与词之间的语义关系

dalvqw 在【起来重睡学算法 Day3】大模型算法全栈基础篇第二章：文本表示与词向量中发帖

今日无事 勾栏听曲 L站水文 
23 天入门大模型算法 


在线阅读地址：LLM 前世今生 
第三节 从主题模型到 Word2Vec
一、寻找理想的词向量
无论是哑编码还是序号化，它们本身都存在一个根本性的缺陷，那就是无法表达词与词之间的语义关系。在这些表示方法中，不同词的向量通常是正交的（如哑编码），或者其 ID 大小关系是随机的，导致模型无法理解“国王”与“女王”的语义比“国王”与“苹果”更近。为了解决这个问题，分布式表示（Distributed Representation）被提出，目的是将词语映射到一个低维、稠密、且蕴含丰富语义信息的连续向量空间中。理想中的词向量需要同时满足语义蕴含和低维稠密两个主要目标。语义蕴含要求向量之间的距离能够度量词语之间的语义相似度，这背后的原理就是分布式假设的朴素应用，也就是说如果两个词经常在相似的上下文中共同出现，那么它们的向量在空间上应该是彼此靠...