Hifumi Mizuhara 在视频怎么计算Token？中发帖[スクリーンショット 2025-04-17 22.29.31] Gemini 的多模态真是强啊，居然可以识别视频但问题是，这里的 Token 和传统意义上文字的 Token 有什么不同？AI 是怎么看懂图片和视频的？求教

Hifumi Mizuhara 在视频怎么计算Token？中发帖

[スクリーンショット 2025-04-17 22.29.31] 
Gemini 的多模态真是强啊，居然可以识别视频 
但问题是，这里的 Token 和传统意义上文字的 Token 有什么不同？AI 是怎么看懂图片和视频的？ 
求教