小诗音 (@mingliao) 在各位部署自己的RAG应用的时候，embedding模型和rerank模型一般使用什么方式部署呢？中发帖近期在部署文本嵌入模型时，我尝试了 Hugging Face 的 text-embeddings-inference 以及 Xinference

小诗音 (@mingliao) 在各位部署自己的RAG应用的时候，embedding模型和rerank模型一般使用什么方式部署呢？中发帖

近期在部署文本嵌入模型时，我尝试了 Hugging Face 的 text-embeddings-inference 以及 Xinference。然而，发现它们支持的嵌入模型存在一些问题：部分模型版本比较老了，且不支持模型中的第二个稠密层（2_Dense），因此只能输出第一层的嵌入结果，例如TencentBAC/Conan-embedding-v1模型，使用TEI部署后仅能够输出1024维，但是实际上用Sentence Transformers手写encode方法可以输出完整的1792维的向量。 
请问是否有其他简便且直接的方法，可以部署与 Sentence Transformers 完整兼容并符合 OpenAI 标准的嵌入模型和ReRank模型？