Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集
✒️ @halomaster 📅 07 Apr 2023, 08:33 GMT⋮ 【AI】 Massive Never-ending BT Vast Chinese corpus
超大规模中文语料集
Github项目地址:
https://github.com/esbatmop/MNBVC
响应符尧博士的号召,危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。
中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:
在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集。
MNBVC数据集(NLP语料数据集)不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网搜集。
里屋社区资深用户「等战」,「零零发」和「龙骑兵」,共同发起了MNBVC项目。期望能够为中文AI训练提供充足的粮草。
里屋社区资深用户「yufei」,「zzm88」对中文语料内容转码和整理工作提供了超大力的支持。
里屋社区资深用户「pomelo」,「n_g」,「xclimbing」,「一骑红尘妃子笑」,对中文语料数据的上传、下载、提取方式和资源整理工作提供了大力的支持。
我们欢迎所有有热情和有能力的网友能够来加入MNBVC项目。
http://mnbvc.253874.net/
0 replies