ggvis (@ggvisPro)GPT:"波*野结衣" 出现次数是 “您好"的2.5倍 中发帖

一篇名为《Speculating LLMs’ Chinese Training Data Pollution from Their Tokens》的国产论文指出, 中文语料的色情赌博信息,污染了 AI。 

一个token竟然可以这么长啊(NSFW)
[ed01beab6f770f4ad31abb19add267f4]
[03cbb003503497406a2f1a27bf65d837]
[dfbdadc1b68bde81dddf7bf1a74390c8]