dalvqw【起来重睡学算法 Day5】大模型算法全栈理论篇第二章:文本表示与词向量 中发帖

今日无事 勾栏听曲 L站水文 😀 
23 天入门大模型算法


在线阅读地址:LLM 前世今生
第四节 基于 Gensim 的词向量实战
前面已经学习了多种词向量表示,接下来我们尝试将这些理论转化为可运行的代码。本节将使用 Gensim 进行实践,通过简洁的代码示例来应用前几章介绍的算法,来加深对模型工作原理的理解,并掌握其基本使用方法。
一、Gensim 简介
Gensim (Generate Similar) 是一个功能强大且高效的Python库,专门用于处理原始的、非结构化的纯文本文档。它内置了多种主流的词向量和主题模型算法,如 Word2Vec、TF-IDF、LSA、LDA 等。
1.1 核心概念
使用 Gensim 时,会遇到几个概念:

语料库:这是 Gensim 处理的主要对象,可以简单理解为训练数据集。分词后的文档通常表示为 list[list[str]];用于 ...