BHznJNs 在与其猜人什么时候会被 AI 淘汰，不如想象一下能替代人的 AI 应该是怎么样的中发帖以下是我的猜想：由于人的主要信息输入是视觉和听觉，如果有这样一个完全模仿人的 AI 模型，其输入模态可能会是视频（画面+音频），文字可能会像 DeepSeek-OCR 那样被转换成图像后输入，输出模态可能和现在类似，是文字+工具调用（工具使用可能会对特定场景比如 computer use、具身控制等做优化）

BHznJNs 在与其猜人什么时候会被 AI 淘汰，不如想象一下能替代人的 AI 应该是怎么样的中发帖

以下是我的猜想： 
由于人的主要信息输入是视觉和听觉，如果有这样一个完全模仿人的 AI 模型，其输入模态可能会是视频（画面+音频），文字可能会像 DeepSeek-OCR 那样被转换成图像后输入，输出模态可能和现在类似，是文字+工具调用（工具使用可能会对特定场景比如 computer use、具身控制等做优化）。 
同时其输入和输出可能也不会像现在的 LLM 是一次输入对应一次输出，而是能够流式地输入视频，同时持续输出文字和工具调用信息。当然完全的流式可能不太现实，更有可能的是，推理速度极快，能在 100 毫秒内完成图像输入 + 思考 + 文字输出，由于输入输出频率高，呈现的效果和流式输入输出差不多。 
最后其上下文可能和现有的模型差不多甚至更短（毕竟人的工作记忆也很有限），但是会有一个相比于现在更优的长期记忆机制。