Fluctuation-based Adaptive Structured Pruning for Large Language Models

本文是LLM系列文章,针对《Fluctuation-based Adaptive Structured Pruning for Large Language Models》的翻译。

基于波动的大型语言模型自适应结构修剪

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 前言
  • 4 方法
  • 5 实验
  • 6 结论

摘要

网络修剪是解决大型语言模型(LLM)部署和推理的巨大计算资源需求的一种很有前途的方法。免费再训练对LLM的修剪方法很重要。然而,几乎所有现有的LLM无需再训练的修剪方法都集中在非结构化修剪上,这需要特定的硬件支持来加速。在本文中,我们提出了一种新的LLM无需再训练的结构化修剪框架,称为FLAP(基于模糊推理的自适应结构化修剪)。它通过有效地减少存储和提高推理速度,对硬件友好。为了有效地对LLM进行结构化修剪,我们强调了三个需要高度关注的关键要素:制定结构化重要性指标,自适应搜索全局压缩模型,以及实施补偿机制以减轻性能损失。首先,FLAP基于波动修剪度量来确定当去除一列权重时输出特征图是否容易恢复。然后对重要性得分进行标准化,自适应地确定全局压缩模型结构。最后,FLAP添加了额外的偏置项,以使用基线值恢复输出特征图。我们根据各种语言基准对我们的方法进行了全面评估。在没有任何再训练的情况下,我们的方法显著优于最先进的方法,包括LLM Pruner和Wanda在结构化修剪中的扩展。代码发布于https://github.com/CASIA-IVA-Lab/FLAP.

1 引言

2 相关工作

3 前言

4 方法

5 实验

6 结论

在这项工作中,我们提出了FLAP(基于模糊推理的自适应结构化修剪),这是一个专门为大型语言模型(LLM)设计的无需再训练的结构化修剪框架。为了应对结构化修剪带来的挑战,我们引入了一种新的结构化修剪度量,采用自适应全局模型压缩策略,并实现了旨在减轻潜在性能损失的鲁棒补偿机制。我们的经验结果证实,FLAP构建的结构化压缩模型可以在不进行任何再训练的情况下保持困惑和零样本性能。特别值得注意的是FLAP在维持低压缩率和中等压缩率下的模型性能方面的功效。我们的工作表明,偏差补偿可以在很大程度上取代再训练或参数有效微调(PEFT)。我们希望我们的工作有助于更好地理解LLM的结构化修剪和性能恢复。