“悟道”项目构建了高质量的数据集,用于支撑大模型的训练和测评工作,以下提供开源数据集的链接: https://data.baai.ac.cn/details/WuDaoCorporaText
WuDaoCorpora是北京智源研究院最新构建的高质量数据集,由全球最大的纯文本数据集、全球最大的多模态图文数据集和全球最大的中文对话数据集三部分构成。
悟道文本数据集
采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。
悟道图文数据集
数据集精选高质量6.3亿图文对,数据总量达到90TB。 数据标签包括科技、人物、艺术等40+种类别。采用全面的数据清洗规则,去除涉恐涉暴等隐私敏感信息,保证数据集质量;融合中西方数据源,帮助模型解决文化壁垒带来的数据偏置问题。
悟道对话数据集
目前体量最大的中文对话数据集。采用严格的逻辑清洗规则,对敏感数据进行过滤,从9TB原始数据筛选得到181GB高质量数据。可支撑智能助手、虚拟亲友等方面的下游应用,同时为开放型对话领域研究提供基础数据支撑。
https://data.baai.ac.cn/details/WuDaoCorporaText
0 replies