@oswald522 在求助大模型本地部署（自动装载卸载，类型多样）中发帖本地部署大模型，后端服务器调研ollama，vllm，xinference

@oswald522 在求助大模型本地部署（自动装载卸载，类型多样）中发帖

本地部署大模型，后端服务器调研ollama，vllm，xinference。本地主机为nvidia3090 24g版本，主要使用方式为团队知识库，面临的问题主要有: 

ollama可以实现模型自动装载卸载，但是目前不支持rerank模型，即使导入显示也判断为 embed类型。
vllm 和xinference 不支持模型自动装载卸载，模型持续占用较大。另外实现系统自动启动的难度较大。

咨询佬友，有没有能够实现模型自动装载，部署容易，支持类型多样（重排，嵌入等）的部署框架或者教程。