变色龙 (@bianselong)中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T 中发帖

目前平台共入驻 27 个语料数据集,数据总量约 2.7T,主要分三类: 

一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料;
二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;
三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。

用户登录中国网络空间安全协会网站(https://www.cybersac.cn/ newhome),点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。 中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T - IT之家