@DerrickWang 在本地部署嵌入模型+调用LLM API的最优雅解决方案是什么中发帖如题，基于llama.cpp的只支持GGUF，界面很好用也可以调用LLM API，但是可选的embedding太少了

@DerrickWang 在本地部署嵌入模型+调用LLM API的最优雅解决方案是什么中发帖

如题，基于llama.cpp的只支持GGUF，界面很好用也可以调用LLM API，但是可选的embedding太少了。如果我想用safetensors的是应该直接自己量化还是有什么更好的解决方法