dalvqw【起来重睡学算法 01】大模型前世今生第二章:文本表示与词向量 中发帖

今日无事 勾栏听曲 L站水文 
为什么 01 是第二章?因为第一章是废话简介跟环境部署,原项目如下:


第一节 初级分词技术
要让计算机开始理解人类语言,首先要做的就是把连续不断的文本“敲碎”,变成一块块有意义的“积木”——这个过程就是分词(Tokenization)。如果说文本是一座宏伟的建筑,那么“词”就是构成这座建筑的砖瓦。分词任务的质量,将决定上层建筑(如信息检索、机器翻译、情感分析等)的稳固程度。
一、分词的定义与重要性
分词任务是把连续的文本序列切分成具有独立语义的基本单元(即“词”或“词元”)。对于英文等天然有空格作为分隔符的语言,分词相对简单。但对于中文、日文、泰文等语言,文本是连续的字符流,词之间没有明确的边界。例如,对于句子"给阿姨倒一杯卡布奇诺",计算机需要依据算法将其正确地切分为 ["给", "阿姨", "倒", "一杯", "卡布奇诺"]。
在传统的 NL...