LINUX DO Channel

zeke (@zekeChin) 在分享 Nvidia最新的推理框架 Dynamo 说是吞吐量大幅提高中发帖

blog: Dynamo Inference Framework | NVIDIA Developer 
github: GitHub - ai-dynamo/dynamo: A Datacenter Scale Distributed Inference Serving Framework 
看博客说是triton的继承者，当时23年的时候也是用过一段时间，triton-server那玩意是真的挺反人类的，对于encode bert类模型，当时开源确实他是最快的。 
后面主要是decode模型 和 vllm、llama.cpp出来后就好多了。 
虽然还没看仔细看Dynamo，但是看到代码分布是rust+go 舒服多了，没抱着cpp死磕，应该会好用一些。 
好像做了很多工作，还有这么多技术细节，没需求等大佬解析 
 [image] 
不是哥们，胆子这么大默认 用mistralrs最默认en...