kkkqkx 在 openai兼容的本地嵌入模型服务(fastAPI+transformers) 中发帖前情提要之前我在搓一个代码库索引的项目，过程中我需要本地部署了all-mini-lm模型来验证分段效果

kkkqkx 在 openai兼容的本地嵌入模型服务(fastAPI+transformers) 中发帖

前情提要
之前我在搓一个代码库索引的项目，过程中我需要本地部署了all-mini-lm模型来验证分段效果。虽然ollama、vllm已经提供了解决方案，但是ollama、vllm有些太重了，而且ollama的批处理优化的并不好，这2个对纯cpu的优化也不怎么样。 
github上同类的项目基本上都是为正经的llm设计的，对嵌入模型的考虑较少，对批处理也基本上没有考虑。 
考虑到多数人的设备并没有那么强大，跑跑嵌入模型实际上可能还更有用。因此，我就顺手搓了个fastAPI+transformers的项目，用于提供v1/embeddings和v1/models端点。模型支持直接从hagging face拉取，也支持直接导入本地的safetensors。 
项目地址为 kkkqkx123/openaiAPI-transformers-embedLM: A openai embedding api...