东川路第一段子手 (@Giggle) 在 【Machine Learning System】机器学习系统工程|训练/推理/量化/资源调度/线上稳定性 中发帖
版块名称: Machine Learning System讨论版块
URL Slug: MLSys
版块简介:
机器学习不只是“训练一个模型”,而是一套从数据、训练、评估到部署、监控、迭代的系统工程。本版块聚焦 Machine Learning System(机器学习系统) 的实战落地,核心围绕两大块:训练系统 与 推理系统。
训练侧关注 Megatron 等大规模分布式训练框架、并行策略、通信优化、容错与复现、集群调度与成本控制;推理侧则聚焦 sglang、vLLM 等高性能推理框架,讨论吞吐与延迟优化、KV Cache 管理、batching 策略、流式生成、服务治理与上线稳定性。
同时,随着量化(INT8/INT4)、LoRA/Adapter、多模型路由、长上下文与多机推理等技术不断发展,ML 系统的复杂度也在快速上升:资源利用率难以保证、性能瓶颈定位困难、线上稳定性与可观...