BHznJNs 在 做了一个根据上下文 token 数来自动切换模型的 API 代理 中发帖
因为一些平台,比如 groq、openrouter 等,提供的免费模型一般都有限制上下文,那是不是可以做一个中转,在实际进行模型调用前进行 token 计算,对于消息 token 数较短的请求就使用这些免费模型来响应,对于 token 数长的请求就正常调用。
正好,我最近做了这么一个项目
代码放在这里了,也在这贴一下:
import { Plugin } from 'llm-hooks-sdk';
import { estimateTokenCount } from 'tokenx';
const TOKEN_ESTIMATE_ERROR_RATE = 1.1;
export default {
beforeUpstreamRequest({ data, logger, metadata }) {
const model = data.requestParams.m...