mumong (@mumong05)佬友们救!最近开发agent遇到个问题。 中发帖

🚀 基于 HolmesGPT & LangGraph 的多集群运维 Agent 架构探讨:如何优雅地扩展?
💡 项目背景
我正在开发一款 AIOps 运维助手,技术栈基于 HolmesGPT 和 LangGraph 。


运行模式 :一个 AIOps Pod 作为智能大脑(Agent),配合一个独立的 MCP (Model Context Protocol) 服务 Pod。


交互方式 :MCP 服务通过 SSE (Server-Sent Events) 暴露工具链接(如 Bash、Prometheus Client 等)给 AIOps 调用。


当前状态 :在单集群 环境下运行完美。例如询问“查询最近集群 CPU 利用率”,Agent 能自动发现 MCP 工具并执行,流程顺畅。


🚧 面临的挑战
目前需要将架构扩展为 多集群管理模式 :


架构规模 :1 个管控集群 ...