小飞猪的希冀 (@zerobey)周五日记碎碎念!!! 中发帖

周五啦,周五啦,等下班了。 
PS:部署了一礼拜的模型了,老眼昏花。
公司搞了个老款JetSon Orin 64GB 的套件,烧系统、选模型、部署应用,整了好几天
害,测试下来QWEN3-14B 会平衡一点,总的来说大参数的量化版本不如小参数。
另外没有长上下文需求可以直接 ollama 跑,上下文窗口比较大的还使用优化的 vllm 镜像。说到镜像,可以用毫秒镜像代理,顺便别尝试用jetson-container 编译镜像,纯属自讨苦吃!!!