途川 (@litjohn) 在 关于多模态模型上下文传输中媒体资源产生的带宽和流量消耗 中发帖
有一个简单的想法:
这些东西都会被分词变成 token,而 token 可以用简单的一个整数编号。注意到很多时候模型看一张图只需要 1000 多个不到 2000 个 token,那么直接对图片分词,把 token 编号序列存储在本地,每次仅传输 token 编号序列,是不是能解决这个问题?