@fooltal 在 deepseek-v3缓存命中是否值得使用,求大佬指教。 中发帖
问题背景
1.最近在使用火山的deepseekV3模型,平均周使用量约100M。其中输入约占13%,输出占87%,输入提示词约占10%左右。
2.一天中的不少提问会使用提示词(如翻译、总结文本等),字数从几十到百余字不等。
3.使用的时候希望能够模型能在两三秒内给出回复。
问题
1.这种情况下是否有必要开启存储和命中功能?该功能按小时计费(缓存和命中),会有持续小额收费,
2.哪种情况下开缓存命中更好(比如带来更高的响应速度和更低的费用),哪种情况下不建议开(更好
3.这种缓存机制是否任何只需要调用网址、调用模型、调用api的应用和插件都可以用,还是说需要api应用插件自身有额外设置的功能(如能设置缓存命中机制的才可以)。
4.自身这种需要短时间回复是否不适合批量推理。
参考附件
模型服务计费–火山方舟大模型服务平台-火山引擎
模型能力–火山方舟大模型服务...