老布鲁的猫 (@Bluesss) 在 [趟坑] RAGflow/xinference 从CPU 换到GPU，如果你觉RAGflow embedding特别慢，看看是不是跑的CPU 中发帖继踩过Dify的部分坑之后，又开始趟 xinference+RAGflow，坑还有很多，边踩边记录

老布鲁的猫 (@Bluesss) 在 [趟坑] RAGflow/xinference 从CPU 换到GPU，如果你觉RAGflow embedding特别慢，看看是不是跑的CPU 中发帖

继踩过Dify的部分坑之后，又开始趟 xinference+RAGflow，坑还有很多，边踩边记录。 
非计算机专业出身，如果有说的不对的地方，欢迎在评论区指正。 
-----. 
系统 win10， 显卡 4070 ti 16G，内存 64G。 
Cuda，cuDNN相关的已经装好，安装Cuda 详细步骤可以参考这篇帖子的前半部。 
▶ 
cuda 安装步骤
-----. 
开始很顺利，先装xinference，本机，非docker版。 
然后装RAGflow docker版，它依赖比较多还涉及向量库，就装了docker版。（其实是我没找到非docker版的安装方式） 
xinference上运行了一个本地的 bge m3，RAGflow 接xinference的 bge m3，rerank用的 RAG flow自带的。 
试跑了一下embedding，看起来一切顺利，看了下系统消耗，CPU...