Sophomores 在 Kimi Code 支持原生视频理解了, 不是抽帧看图 中发帖
刷抖音看到 Kimi Code 更新了视频解析, 让cc翻了下仓库.
[dfbd4ebdaa8c389c290ff7704b21a8bc]
如果这个能力跑通了, 感觉对动态场景的提升很明显啊.
比如软件测试, 录一段操作视频直接丢给模型, 它能理解完整的交互流程而不是猜几张截图之间发生了什么.
再比如视频蒸馏复刻和理解.
有没有在用 Kimi Code 的大佬实测过视频理解的效果? 非常好奇实际体验怎么样.