BHznJNs 在 与其猜人什么时候会被 AI 淘汰,不如想象一下能替代人的 AI 应该是怎么样的 中发帖
以下是我的猜想:
由于人的主要信息输入是视觉和听觉,如果有这样一个完全模仿人的 AI 模型,其输入模态可能会是视频(画面+音频),文字可能会像 DeepSeek-OCR 那样被转换成图像后输入,输出模态可能和现在类似,是文字+工具调用(工具使用可能会对特定场景比如 computer use、具身控制等做优化)。
同时其输入和输出可能也不会像现在的 LLM 是一次输入对应一次输出,而是能够流式地输入视频,同时持续输出文字和工具调用信息。当然完全的流式可能不太现实,更有可能的是,推理速度极快,能在 100 毫秒内完成图像输入 + 思考 + 文字输出,由于输入输出频率高,呈现的效果和流式输入输出差不多。
最后其上下文可能和现有的模型差不多甚至更短(毕竟人的工作记忆也很有限),但是会有一个相比于现在更优的长期记忆机制。