YAYI 2: Multilingual Open-Source Large Language Models

本文是LLM系列文章，针对《YAYI 2: Multilingual Open-Source Large Language Models》的翻译。

YAYI 2：多语言开源大型语言模型

摘要
1 引言
2 预训练
3 对齐
4 推理
5 安全
6 评估
7 结论

摘要

随着自然语言处理的最新进展，大型语言模型（LLM）已经在许多现实世界任务中实现了人类层面的语言理解和生成能力，甚至被视为通用人工智能的潜在途径。为了更好地促进LLM的研究，最近提出了许多开源LLM，如Llama 2和Falcon，并获得了与专有模型相当的性能。然而，这些模型主要是为英语场景设计的，在汉语环境中表现不佳。在这份技术报告中，我们提出了YAYI 2，包括基础模型和聊天模型，参数为300亿。YAYI 2是在多语言语料库上从头开始进行预训练的，该语料库包含2.65万亿个由我们的预训练数据处理管道过滤的token。通过对数百万条指令的监督微调和从人类反馈中的强化学习，基本模型与人类价值观保持一致。在MMLU和CMMLU等多个基准测试上进行的大量实验一致表明，所提出的YAYI 2优于其他类似规模的开源模型。

1 引言

2 预训练

3 对齐

4 推理

5 安全

6 评估

7 结论

在本技术报告中，我们提出了多语言YAYI2-30B LLM，特别关注中文相关应用。我们介绍了预训练数据集的分布，以及预处理管道。YAYI2-30B模型遵循流行的仅解码器模型架构，采用FlashAttention 2和MQA来加快训练和推理。我们还揭示了预训练的细节，包括计算集群、训练策略和技巧，我们相信这将大大有利于行业从业者。我们进一步展示了如何构建用于指令调优的指令数据集，以及YAYI 2模型对长指令、多回合对话和特定领域应用程序的支持。RLHF过程被进一步应用，以更好地与人类价值观保持一致并确保安全。YAYI2基础模型基于三种基准进行评估，包括知识和语言理解、数学和逻辑推理以及编程。大量的实验结果表明，该模型在多个基准测试上，包括MMLU、AGIEval、CMMLU、GSM8K、HumanEval和MBPP，都取得了优于类似规模的开源LLM的性能。特别是在MMLU、AGIEval、CMMLU和HumanEval基准测试上，我们的模型甚至可以以相当大的边界超过更大尺寸的Qwen-78B。
尽管我们已经采取了各种方法来确保安全并减少幻觉，但YAYI 2模型仍然会产生有害内容或编造“事实”，因此强烈鼓励模型用户审查答案，尤其是在安全关键的情况下。还建议模型用户防止滥用YAYI2模型，并遵守相关法律法规。YAYI2模型仍在积极开发中，欢迎所有建议和反馈。