Panda LLM
date
Jul 2, 2024
slug
panda-llm
status
Published
tags
AI
Paper
LLM
summary
使用模型评价不同response的质量
type
Post
通过指令调整来增强开源LLM,并对性能进行评估。目标是用定量分析来补充评估。
当前指令遵循LLM(instructtion-following LLM)存在局限性:生成的结果缺乏可信度、使用的模型缺乏透明度,会引起对数据安全的担忧,以及未知的训练配方,无法为特定的需求定制模型。
为什么不知道recipe会给调整模型带来挑战 (1)PandaLLM是第一个面向海外受众的开源中文指令LLM,也是Dandelion Project的第一版LLM,在 Chinese-Wiki-2019、Chinese-News-2016、Chinese-Baike-2018、Chinese-Webtext-2019 和 Translation-2019 Xu (2019) 和 COIG 数据集 Zhang et al. ( 2023) 和 Wei et al. ( 2021) 上进行了训练,并基于 LLaMA 模型 Touvron et al. ( 2023) 进行了指令调优。
PandaLLM的贡献有三方面:
- 采用了2-stage训练方法,产生的结果超越了以前所有相同参数的开源中文LLM
- 对各个开源的中文LLM进行了评估
- 提供了一系列LLM和相应的源码,目的是促进AI的民主化
如何训练一个PandaLLM
强大的Pre-trained LM + 高质量的instruction-following Dataset = 高质量的 instruction-following LLM (1)2步,一个是强大的预训练模型,一个是高质量的instruction-following数据集。
PandaLLM是选用了各种LLaMA,配上6个开源中文数据集
评估
项目采用了3个公开使用的推理基准来评估推理能力
结果表明,仅对NLP中文语料库数据集进行训练并不足以生成高性能模型。为了解决这个问题,PandaLLM求助于 COIG 数据集,其中包含来自大量领域的指令数据,包括考试指令、人类价值对齐指令、Leetcode 指令等。如第 3.2 节所示,即使仅使用 4.2% 的 COIG 数据集,也能显着提高我们模型的推理能力,尤其是在C^3-m数据集上,增益为 13.38,令人印象深刻。
但如果只是个大杂烩,也不会产生更好的训练结果,反而导致1+1<2。
简言之,一个包含大量预训练的管道,然后对一小部分但多样化的数据进行指令调整,可以产生一个高效的中文模型。