stevessr backup路由化智能思考『转』 中发帖

摘要: 


具有卓越响应质量的 LLM(尤其是较大或闭源模型)通常具有更高的推理成本,使其部署效率低下且成本高昂。与此同时,从头开始开发基础法学硕士对于许多应用来说变得越来越资源密集型且不切实际。为了应对平衡质量和成本的挑战,我们引入了 Routoo,这是一种旨在根据性能、成本和效率优化特定提示的 LLM 选择的架构。Routoo 提供了对推理成本和质量之间权衡的可控性,从而能够显着降低给定质量要求的推理成本。 Routoo 由两个关键组件组成:性能预测器和成本感知选择器。性能预测器是一种轻量级 LLM,它可以在给定提示下估计各种底层 LLM 的预期性能,而无需执行它们。然后,成本感知选择器模块根据这些预测和约束(例如成本和延迟)选择最合适的模型,从而显着降低相同质量的推理成本。 我们使用 MMLU 基准测试在 57 个领域中评估了 Routoo,采用开源模型。我们的结果表...