途川 (@litjohn) 在关于多模态模型上下文传输中媒体资源产生的带宽和流量消耗中发帖有一个简单的想法：这些东西都会被分词变成 token，而 token 可以用简单的一个整数编号

途川 (@litjohn) 在关于多模态模型上下文传输中媒体资源产生的带宽和流量消耗中发帖

有一个简单的想法： 
这些东西都会被分词变成 token，而 token 可以用简单的一个整数编号。注意到很多时候模型看一张图只需要 1000 多个不到 2000 个 token，那么直接对图片分词，把 token 编号序列存储在本地，每次仅传输 token 编号序列，是不是能解决这个问题？