老布鲁的猫 (@Bluesss)[趟坑] RAGflow/xinference 从CPU 换到GPU,如果你觉RAGflow embedding特别慢,看看是不是跑的CPU 中发帖

继踩过Dify的部分坑之后,又开始趟 xinference+RAGflow,坑还有很多,边踩边记录。 
非计算机专业出身,如果有说的不对的地方,欢迎在评论区指正。
-----.
系统 win10, 显卡 4070 ti 16G,内存 64G。
Cuda,cuDNN相关的已经装好,安装Cuda 详细步骤可以参考这篇帖子的前半部。

cuda 安装步骤
-----.
开始很顺利,先装xinference,本机,非docker版。
然后装RAGflow docker版,它依赖比较多还涉及向量库,就装了docker版。(其实是我没找到非docker版的安装方式)
xinference上运行了一个本地的 bge m3,RAGflow 接xinference的 bge m3,rerank用的 RAG flow自带的。
试跑了一下embedding,看起来一切顺利,看了下系统消耗,CPU...