@oswald522求助大模型本地部署(自动装载卸载,类型多样) 中发帖

本地部署大模型,后端服务器调研ollama,vllm,xinference。本地主机为nvidia3090 24g版本,主要使用方式为团队知识库,面临的问题主要有: 

ollama可以实现模型自动装载卸载,但是目前不支持rerank模型,即使导入显示也判断为 embed类型。
vllm 和xinference 不支持模型自动装载卸载,模型持续占用较大。另外实现系统自动启动的难度较大。

咨询佬友,有没有能够实现模型自动装载,部署容易,支持类型多样(重排,嵌入等)的部署框架或者教程。