zeke (@zekeChin) 在 分享 Nvidia最新的推理框架 Dynamo 说是吞吐量大幅提高 中发帖
blog: Dynamo Inference Framework | NVIDIA Developer
github: GitHub - ai-dynamo/dynamo: A Datacenter Scale Distributed Inference Serving Framework
看博客说是triton的继承者,当时23年的时候也是用过一段时间,triton-server那玩意是真的挺反人类的,对于encode bert类模型,当时开源确实他是最快的。
后面主要是decode模型 和 vllm、llama.cpp出来后就好多了。
虽然还没看仔细看Dynamo,但是看到代码分布是rust+go 舒服多了,没抱着cpp死磕,应该会好用一些。
好像做了很多工作,还有这么多技术细节,没需求等大佬解析
[image]
不是哥们,胆子这么大默认 用mistralrs最默认en...