kejun (@ke_jun) 在 241128 三花AI日报:阿里通义开源国产推理模型;GUI 自动化 Agent;OneDiffusion:多功能生图模型; OpenAI 的 Sora API 泄露事件回顾 中发帖
ShowUI: GUI 自动化 Agent
[图片]
ShowUI 是一个用于 GUI 自动化的视觉-语言-操作模型,类似于 Computer Use,能够通过自然语言来控制 AI 实现点击、输入、选择、滚动等操作。根据相关论文的描述,该模型实现了 75.1% 的准确率,性能提高了 1.4 倍,目前代码已经开源。
OneDiffusion:多功能生图模型即将发布
[图片]
OneDiffusion 是一个多功能生图模型,不仅支持文生图、ID 一致性、单图生多视角、文生多视角,还具备双向生成能力。例如,它可以实现类似 ControlNet 的条件生成(如深度、姿势、布局、语义等),同时也能将图片预处理为这些条件。官方计划于12月初发布模型和代码,敬请关注。
Qwen2vl-Flux 在线演示:体验 mini 版本的强大功能
[图片]
Qwen2vl-Flux现在提供了一个在...