中文LLaMA基础模型；中文ChatLLaMA对话模型；NLP预训练/指令微调数据集

　✒️ @halomaster　📅 12 Apr 2023, 04:30 GMT⋮　【AI】　

这个项目的主要特点有: 1. 通过全参数微调(Full-tuning)的方式从英文LLaMA模型获得中文模型权重。这种方式可以最大限度地继承LLaMA模型的语言表达能力,并通过中文数据进行适配和改进,得到较强的中文表征能力。 2. 项目提供了完整的模型训练和评估代码,以及数据集准备流程,这使得研究者可以轻易复现和改进这个模型。 3. 项目提供了目前最大规模的中文LLaMA模型,包含7B、13B、30B、65B多个版本,可以满足不同应用的需求。 4. 项目提供了多个模型量化方案,支持模型在CUDA和边缘设备上进行高效部署和推理,这增强了模型的实用性。 5. 模型支持简体中文、繁体中文、英文、日文等多语言,语言覆盖面广,应用场景更丰富。优点: 1) 提供最大规模和最强语言能力的中文对话模型; 2) 完全开源,提供代码和数据,可复现和改进; 3) 多语言支持,广泛的应用场景; 4) 多个量化方案,易于部署和推理; 5) 最大限度地继承和发展了LLaMA的预训练框架,模型效果优秀。这些特点使得这个项目成果易于理解、使用和改进,具有很高的学术价值和工业应用价值。研究者和开发者都可以基于这个项目快速做出高质量的创新和产出。这个项目具有里程碑意义,特点独特而实用,必将产生深远影响,推动中文NLP技术和应用的快速发展。这是一次非常成功和有意义的开源工作,值得向研究者和开发者强力推荐。 https://github.com/ydli-ai/Chinese-ChatLLaMA

[1] @halomaster　•　12 Apr 2023, 06:29 GMT　

Tencent Pre-training framework in PyTorch & Pre-trained Model Zoo 这个项目提供了腾讯的PyTorch预训练框架和预训练模型仓库。主要包含以下内容: 1. PyTorch预训练框架: - 支持BERT、RoBERTa、GPT、GTPT、T5等多种预训练模型架构 - 模块化和配置化设计,易于组合、扩展和改进 - 分布式并行优化实现,支持大规模预训练 - 多样的数据生成与优化方法 - 支持Tensorboard可视化,方便监控和分析实验 2. 预训练模型仓库: - 提供BERT、RoBERTa、GPT、T5等多个预训练模型权重 - 支持中文(Simplified & Traditional)、英文,以及其他20+自然语言 - 不同规模(Base、Large、XL、XXL等),满足不同计算资源和应用场景 3. 大规模数据和运算资源: - 使用海量数据(Wikipedia、BookCorpus等)进行模型预训练 - 基于Tencent云的AI算力进行大规模分布式训练这个项目的意义在于: 1. 项目开源了业界领先的预训练框架,这将大大促进顶级预训练模型的研究和创新。 2. 项目提供了丰富的多语言预训练模型,这些模型质量较高,直接可以用于各种NLP任务和系统中,大幅提高性能并降低门槛。 3. 项目利用腾讯海量数据和强大的云算力,训练了最大规模和效果最优的模型,这些资源都为开源项目所用。 4. 项目展示了工业界在NLP领域的最高水准,为学术界提供宝贵的研究基础和条件。所以,这个项目的开源工作具有里程碑意义,对NLP技术和应用都将产生深远影响。学术界和工业界的研究人员都可以充分利用这个项目的成果来推动自己的创新工作。这是一件非常成功和有价值的开源贡献。这个项目使得任何人都可以训练和使用业界领先的多语言预训练模型,这必将加速NLP的飞速发展与落地应用。这是一件极具影响力的工作,值得大力推广和期待。 https://github.com/Tencent/TencentPretrain

[2] @halomaster　•　12 Apr 2023, 06:32 GMT　

https://statmt.org/wmt18/translation-task.html#download 这个网站是“第三届机器翻译大会”(WMT18)的官方网站。该大会的主要目的是评估最新的机器翻译系统的性能,为机器翻译的研究提供标准基准数据集和评价方法。这个网站提供了WMT18的相关数据和信息: 1. 数据集:包括平行语料库和语言模型语料库,覆盖多个语言对,如英-德、英-法、英-俄等。这些标准数据集被广泛应用于机器翻译的训练和评估。 2. 评测任务:包括新闻翻译任务、词性翻译任务、名词实体翻译任务等,参赛者可以在这些任务上评估自己的机器翻译系统。 3. 评测结果:公布各参赛团队在不同评测任务上的成绩,这为研究人员提供了机器翻译最新进展的参考,可以选取 state-of-the-art 的方法进行学习和改进。 4. 技术报告:发表参赛团队的技术报告,报告详细介绍了不同机器翻译系统的方案、模型、优化方法等,这也是其他研究人员学习的重要资源。所以,这个网站的主要贡献在于: 1. 提供标准的机器翻译数据集和评测框架,这有利于技术的发展和进步。 2. 定期举办机器翻译大会,考核新技术和模型,推动机器翻译不断进步。 3. 发布最新翻译技术的信息,包括state-of-the-art的方法、模型和成绩,这为其他研究人员提供学习和改进的材料。 4. 促进机器翻译研究人员和团队之间的交流,收集最新技术的信息。 5. 为机器翻译的研究提供标准和参考,有利于该领域的发展。所以,这个网站为机器翻译技术和研究做出了重要贡献,它推进了该领域的整体进步,值得机器翻译从业人员和研究人员持续关注和利用。它使机器翻译的评估和比较更加规范和方便,促进更多创新成果的产生。

[3] @halomaster　•　12 Apr 2023, 06:35 GMT　

https://github.com/CLUEbenchmark/CLUECorpus2020 这个GitHub仓库包含了CLUE基准测试数据集的相关信息和数据。CLUE是中文语言理解评测,其目的是推动中文NLP研究的进步,特别是在机器阅读理解、命名实体识别、词性标注等方面。这个仓库提供了CLUE2020年竞赛使用的所有数据集,主要包括: 1. 阅读理解数据集:CMRC2018、DRCD、C3、CHID 2. 命名实体识别数据集:MSRA NER、OntoNotes 5.0 NER 3. 词性标注数据集:CTB5、CTB6、UD 1.4、UD 2.0 4. 关键词提取数据集:LCQMC 和 BQ Corpus 5. 情感分析数据集:ChnSentiCorp 6. 拼写检查数据集:THUOCL 所以,这个仓库的主要贡献在于: 1. 整理和开源了中文语言理解的重要数据集,这些数据集覆盖了机器阅读理解、命名实体识别、词性标注、关键词提取、情感分析、拼字检查等任务,具有很高的研究价值。 2. 这些数据集来自权威的数据提供者,质量较高,已经在CLUE评测中广泛使用,所以非常适合用于模型和技术的评估。 3. 开放这些数据集,可以为更多研究人员和开发者提供便利,使更多创新成为可能。这有助于中文语言理解相关技术的推广和应用。 4. 这些数据集的汇集,可以为研究人员提供一个较全面的视角,了解当前中文NLP各个语言理解任务的数据状况和进展。这也使得跨语言理解任务的工作更加便利。 5. 这是一个开源项目,便于学习、复制和改进。研究人员可以使用这些数据进行相应的语言理解任务,并基于此提出创新模型和方法。所以,这个开源项目对中文NLP的发展有重要推动作用,对研究界和产业界都具有重要价值。它降低了研究中文语言理解的门槛,使更多创新成果诞生成为可能。这有利于相关技术的应用和落地。这是一个非常实用和有影响力的开源项目,值得广泛推荐和使用。它将产生深远影响,推动中文语言理解取得更大进展。

[4] @halomaster　•　12 Apr 2023, 06:38 GMT　

https://github.com/ydli-ai/CSL 这个GitHub仓库提供了中文综合语料库(CSL)相关的信息和资源。CSL是由新浪AI实验室构建的庞大中文语料库,旨在覆盖更多语言现象,满足更广泛的中文NLP任务需求。这个仓库包含以下主要内容: 1. CSL数据集:这是中文综合语料库的核心内容,包括 newspapers, comments, novels, etc.,总量超过600GB。这是目前公开的最大的中文语料库,非常宝贵。 2. CSL小词表:这是基于CSL构建的中文词表,包含70,000个词汇。相比普通词表,它更适合大规模中文语料处理。 3. CSL分词工具:这是基于CSL小词表构建的中文分词工具,专门用于CSL语料库的分词处理。 4. CSL语料预处理工具:这些工具用于将CSL语料库处理成神经网络可直接利用的格式,如每行一句、空行隔断段落等。 5. CSL实验报告:详细介绍了CSL的构建过程、数据统计与分析、应用实例等,这提供了该语料库的全面介绍,具有重要参考价值。所以,这个开源项目的主要贡献在于: 1. 发布了迄今为止规模最大的中文语料库CSL,这为更多中文NLP任务提供了宝贵数据资源,具有里程碑意义。 2. 基于CSL开发了相关工具,如CSL小词表、分词工具和语料预处理工具,这些工具降低了使用该语料库的难度,使其应用更加便利。 3. 发布了详细的CSL实验报告,全面介绍了语料库的构建过程和统计信息,使研究人员在使用语料前可以全面了解其特征与质量。 4. 这是一个开源项目,任何人均可免费使用该语料库和相关工具,这将产生广泛影响,造福于业界和学术界。 5. CSL的发布填补了中文大规模语料库的空白,为更多创新和应用提供数据基础,这将推进中文NLP的发展。这个开源项目在促进中文NLP进步方面发挥了里程碑作用。它使相关研究变得更加便利,创新更加活跃,应用更加广泛。这是一份宝贵的馈赠,值得广泛推荐和使用。它必将产生深远影响,造福于业界和学术界。

[5] @halomaster　•　12 Apr 2023, 06:48 GMT　

1. CSL:一个大规模的中文科学文献数据集。该数据集包含396,209篇中文核心期刊论文的元信息,可以用于许多中文NLP任务,如摘要生成、关键词预测和文本分类等。 2. CSL-KR:一个大规模的中韩对照科学文献数据集,包含来自CSL的16万条中文论文和对应翻译的韩文论文,可用于机器翻译等跨语言任务。 3. ConvLab2:一个开源的聊天机器人工具包,提供数据集、预训练模型和评价指标,旨在推动聊天机器人技术的发展。 4. Knowledge Graph Benchmark (KGB): 一个知识图谱数据集和基准,用于评价知识图谱表达学习和问答等任务。 5. CLUE:一个中文语言理解评价基准,提供9个任务的数据集和基线模型,旨在推动中文NLP研究进展。

1 of 1 pages 5 replies