@stevessr 在 Doc-to-LoRA 中发帖[!abstract]+ 长输入序列对于大型语言模型 (LLM) 的上下文学习、文档理解和多步推理至关重要

@stevessr 在 Doc-to-LoRA 中发帖

[!abstract]+ 
长输入序列对于大型语言模型 (LLM) 的上下文学习、文档理解和多步推理至关重要。然而，Transformer 的二次注意力成本使得推理过程耗费大量内存且速度缓慢。虽然上下文蒸馏 (CD) 可以将信息转化为模型参数，但由于训练成本和延迟，逐提示蒸馏并不实用。为了解决这些限制，我们提出了 Doc-to-LoRA (D2L)，这是一个轻量级超网络，它通过元学习在单次前向传播中执行近似 CD。给定一个未见过的提示，D2L 会为目标 LLM 生成一个 LoRA 适配器，使得后续查询无需重新消耗原始上下文即可回答，从而降低目标 LLM 推理过程中的延迟和键值缓存内存消耗。在一个长上下文的大海捞针任务中，D2L 成功地学习将上下文映射到存储“针”信息的适配器，在序列长度超过目标 LLM 原生上下文窗口 4 倍以上的情况下，实现了近乎完美的零样本准确率。在计算资源...