kkkqkxopenai兼容的本地嵌入模型服务(fastAPI+transformers) 中发帖

前情提要
之前我在搓一个代码库索引的项目,过程中我需要本地部署了all-mini-lm模型来验证分段效果。虽然ollama、vllm已经提供了解决方案,但是ollama、vllm有些太重了,而且ollama的批处理优化的并不好,这2个对纯cpu的优化也不怎么样。
github上同类的项目基本上都是为正经的llm设计的,对嵌入模型的考虑较少,对批处理也基本上没有考虑。
考虑到多数人的设备并没有那么强大,跑跑嵌入模型实际上可能还更有用。因此,我就顺手搓了个fastAPI+transformers的项目,用于提供v1/embeddings和v1/models端点。模型支持直接从hagging face拉取,也支持直接导入本地的safetensors。
项目地址为 kkkqkx123/openaiAPI-transformers-embedLM: A openai embedding api...