@tigerxx求推荐国内大模型 API,主打响应速度(支持长上下文约 1w token) 中发帖

我正在开发一个需要接入群聊的聊天机器人,目前已对接 Qwen、DeepSeek 等主流国产大模型,但实测生成速度偏慢,影响用户体验。 
我的使用场景:

单次请求包含 Prompt + 对话上下文,总长度约 1w+ token;
核心诉求是“响应速度”,希望生成延迟尽可能低;
模型能力不能太弱,至少要达到 Qwen / DeepSeek 公众版聊天服务的水平;
仅考虑国内服务商(国外 API 成本太高,暂不考虑)。

求推荐靠谱的 API 服务商或替代方案 —— 无论是官方 API、第三方平台、私有化部署方案,只要能兼顾速度和效果,都欢迎分享!
感谢各位大佬指点!