Hifumi Mizuhara视频怎么计算Token? 中发帖

[スクリーンショット 2025-04-17 22.29.31] 
Gemini 的多模态真是强啊,居然可以识别视频
但问题是,这里的 Token 和传统意义上文字的 Token 有什么不同?AI 是怎么看懂图片和视频的?
求教