BHznJNs 在做了一个根据上下文 token 数来自动切换模型的 API 代理中发帖因为一些平台，比如 groq、openrouter 等，提供的免费模型一般都有限制上下文，那是不是可以做一个中转，在实际进行模型调用前进行 token 计算，对于消息 token 数较短的请求就使用这些免费模型来响应，对于 token 数长的请求就正常调用

BHznJNs 在做了一个根据上下文 token 数来自动切换模型的 API 代理中发帖

因为一些平台，比如 groq、openrouter 等，提供的免费模型一般都有限制上下文，那是不是可以做一个中转，在实际进行模型调用前进行 token 计算，对于消息 token 数较短的请求就使用这些免费模型来响应，对于 token 数长的请求就正常调用。 
正好，我最近做了这么一个项目 

代码放在这里了，也在这贴一下： 
import { Plugin } from 'llm-hooks-sdk';
import { estimateTokenCount } from 'tokenx';

const TOKEN_ESTIMATE_ERROR_RATE = 1.1;

export default {
  beforeUpstreamRequest({ data, logger, metadata }) {
    const model = data.requestParams.m...