小诗音 (@mingliao) 在 各位部署自己的RAG应用的时候,embedding模型和rerank模型一般使用什么方式部署呢? 中发帖
近期在部署文本嵌入模型时,我尝试了 Hugging Face 的 text-embeddings-inference 以及 Xinference。然而,发现它们支持的嵌入模型存在一些问题:部分模型版本比较老了,且不支持模型中的第二个稠密层(2_Dense),因此只能输出第一层的嵌入结果,例如TencentBAC/Conan-embedding-v1模型,使用TEI部署后仅能够输出1024维,但是实际上用Sentence Transformers手写encode方法可以输出完整的1792维的向量。
请问是否有其他简便且直接的方法,可以部署与 Sentence Transformers 完整兼容并符合 OpenAI 标准的嵌入模型和ReRank模型?