heng812 在应对降智--关于酒馆调用多模型协同的工作流模式探讨中发帖本次探讨是大模型持续砍算力，甚至定向中文降智，利用多模型配合的破局探索

heng812 在应对降智--关于酒馆调用多模型协同的工作流模式探讨中发帖

本次探讨是大模型持续砍算力，甚至定向中文降智，利用多模型配合的破局探索。本质上来说sillytavern(酒馆）是个前端网页集成工具平台，所以一次对话可以搭配多个不同风格的大模型协同操作。我一次输入，可以通过不同插件和预设完成同时调用4个模型来提高注意力， 
举例来说： 
1、主聊天API用gemini3.1，gpt5.2或claude4.6(图里是gemini2.5当时写作最好) 
 [image] 
2、记忆增强用插件专门整理表格增强记忆，2.5flash(解决各种记忆，姿势，情节错乱) 
[image] 
3、节约token:用向量化和重排检索Qwen8b(解决token消耗和长期记忆) 
[image] 
4、剧情规划：deepseek V3(解决降智，文风，增加游戏性) 
[image] 
模型数量根据需要配置，各司其职，即便其中某个降智，砍算力，另外三个臭皮匠也能当个诸葛亮用，...