LovenSar【资源更新】爱泼斯坦案-770小时OCR更新(含视频描述)|Qwen3.5 中发帖

继上个帖子之后,过去了770个小时之后。 

[eee006de13e8e2ac058104ce7217a2b9]
[51e7b7806cdb1d5336e42ce9033f162e]
主要模型从qwen3-vl:8b换为qwen3.5:9b,以前只出一个txt文件。
现在会出两个,新版本文件名带_2。
喜欢建立知识图谱的佬友们可以玩一玩,看看两次数据集方面的质量是否有所升级?
目前我这边简单的初步量化方面:
全量11,924对文件中,平均词数/文件从3392.81提升到3404.57(+0.35%);中位词数/文件从388提升到459(+18.30%)。
EFTAID覆盖率从95.33%提升到100.00%(即未命中比例从4.67%降到0%)。
重复行占比从0.0916降至0.0713(约9.16%->7.13%,下降2.03个百分点,约-22.11%相对降幅)。
...