@eliaukmouse 在分享一个自己微调的多轮自主agent模型-mirau-agent-base 中发帖放在最前面: 模型地址: huggingface modelscope 在线demo mirau agent demo下面是正文: 我对agent的期待是一个在环境中进行端到端强化学习的模型(model as agent)，最近的o3还有oai的codex或者deep research让我更加坚信这点，在今年初的时候我做了三个期望: 1.社区能出现一个稳定的强化学习训练框架，能在14b以下的小模型上稳定训练，并且所耗费显存不要超过80G，这样才会出现真正的AI agent开发者，而不是GPT Store里人人都可以轻易复刻的提示词工程师

@eliaukmouse 在分享一个自己微调的多轮自主agent模型-mirau-agent-base 中发帖

放在最前面: 
模型地址: 


huggingface 


modelscope 


在线demo 

mirau agent demo

下面是正文: 
我对agent的期待是一个在环境中进行端到端强化学习的模型(model as agent)，最近的o3还有oai的codex或者deep research让我更加坚信这点，在今年初的时候我做了三个期望: 

1.社区能出现一个稳定的强化学习训练框架，能在14b以下的小模型上稳定训练，并且所耗费显存不要超过80G，这样才会出现真正的AI agent开发者，而不是GPT Store里人人都可以轻易复刻的提示词工程师。 
2.希望有一套共识性的Agent接口，类似于Claude推的MCP，但每个开发者可以使用自己的数据来构建独特的Agent，这个接口应该是方向性的，而不是具体的函数调用接口，这样才更好做出自己的个性。 
3.各大硬件厂商...