@DerrickWang 在 本地部署嵌入模型+调用LLM API的最优雅解决方案是什么 中发帖
如题,基于llama.cpp的只支持GGUF,界面很好用也可以调用LLM API,但是可选的embedding太少了。如果我想用safetensors的是应该直接自己量化还是有什么更好的解决方法
如题,基于llama.cpp的只支持GGUF,界面很好用也可以调用LLM API,但是可选的embedding太少了。如果我想用safetensors的是应该直接自己量化还是有什么更好的解决方法