Alleviating Hallucinations of Large Language Models through Induced Hallucinations

本文是LLM系列文章, 针对《Alleviating Hallucinations of Large Language Models through Induced Hallucinations》的翻译。

通过诱导幻觉减轻大型语言模型的幻觉

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 诱导然后对比度解码
  • 4 实验
  • 5 结论
  • 局限性

摘要

尽管大型语言模型具有令人印象深刻的功能,但人们已经观察到它们会产生包括不准确或捏造信息的反应,这种现象通常被称为“幻觉”。在这项工作中,我们提出了一种简单的诱导然后对比解码(ICD)策略来缓解幻觉。我们首先通过从原始LLM中诱导幻觉来构建事实上较弱的LLM。然后,我们在解码过程中惩罚这些诱导的幻觉,以增强生成内容的真实性。具体来说,我们通过放大原始模型的预测并通过对比解码淡化诱导的不真实预测来确定最终的下一个表征预测。基于判别和基于生成的幻觉评估基准(如TruthfulQA和FACTSCORE)的实验结果表明,我们提出的ICD方法可以有效地提高各种模型大小和族的LLM的真实性。例如,当配备ICD时,Llama2-7B-Chat和Mistral-7B-Instruction在TruthfulQA上分别实现了与ChatGPT和GPT4相当的性能。

1 引言

2 相关工作

3 诱导然后对比度解码

4 实验

5 结论

这项工作介绍了一种用于减轻LLM中幻觉的解码方法,称为诱导然后对比解码(ICD)。考虑到直接增强LLM真实性的挑战,我们首先从LLM中诱导幻觉,然后在解码过程中从原始LLM的输出空间中减去它们。在基于判别和基于生成的基准上的实验结果表明,这种简单的方法有效地提高了LLM的真实性。我们还进行了额外的分析,以深入研究我们方法的潜在机制,例如比较不同的幻觉诱导方法,评估我们方法在不同模型大小和类型下的有效性。
还有一些潜在的未来方向。例如,我们的方法可以与其他幻觉缓解方法相结合,如检索增强生成,通过对比检索增强LLM和诱导幻觉,类似于DExpert的实践。受专家混合(MoE)思想的启发,我们还可以训练多个专家和反专家,并在解码过程中动态对比他们。探索如何将我们的方法应用于黑盒专有模型也是一件有趣的事情,因为在这种情况下,模型输出分布不可用。

局限性

我们认为我们的工作有以下局限性。
额外的计算成本。我们的方法的一个潜在限制是对比解码引入的额外计算成本,这需要两倍的前向传播。当使用我们的方法时,延迟增加了约1.6倍。在未来的工作中,我们的目标是探索减轻这种副作用的策略,例如利用较小的模型进行对比,或者只训练额外的头部来产生受Medusa解码启发的幻觉。关于GPU内存开销,由于我们使用了参数有效的微调技术,即LoRA,因此增加可以忽略不计。
评估设置。在这项工作中,我们只在两个幻觉基准上评估我们的方法,即TruthfulQA和FACTSCORE。前者侧重于问答,后者侧重于传记写作,两者都无法检验我们的方法在更开放的领域和一般任务中的普遍性。开发令人信服的基准和指标来诊断LLM幻觉是一个重大挑战,我们计划在最近的基准上评估我们的方法。此外,我们还没有启动严格的回归测试,这意味着全面评估ICD是否影响LLM的原始容量。