@stevessr 在 Doc-to-LoRA 中发帖
[!abstract]+
长输入序列对于大型语言模型 (LLM) 的上下文学习、文档理解和多步推理至关重要。然而,Transformer 的二次注意力成本使得推理过程耗费大量内存且速度缓慢。虽然上下文蒸馏 (CD) 可以将信息转化为模型参数,但由于训练成本和延迟,逐提示蒸馏并不实用。为了解决这些限制,我们提出了 Doc-to-LoRA (D2L),这是一个轻量级超网络,它通过元学习在单次前向传播中执行近似 CD。给定一个未见过的提示,D2L 会为目标 LLM 生成一个 LoRA 适配器,使得后续查询无需重新消耗原始上下文即可回答,从而降低目标 LLM 推理过程中的延迟和键值缓存内存消耗。在一个长上下文的大海捞针任务中,D2L 成功地学习将上下文映射到存储“针”信息的适配器,在序列长度超过目标 LLM 原生上下文窗口 4 倍以上的情况下,实现了近乎完美的零样本准确率。在计算资源...