林黛玉倒拔垂杨柳 (@Qiner) 在 🌋 让 API 模式的大模型「发送文件?」读取完整 PDF 并总结。鱼 × 渔 ✓ 中发帖
(\ _ /)
( ・-・)
/っ ☕ 就是,昨晚有老哥提到 OI 的 RAG 模式读取文件不完整的问题:
我起初也以为 RAG 是把整个文件原样二进制化切碎入库 (能保留图片、样式等信息),稍微了解之后才知道原来也只是给文本字段加个「向量」索引字段入库。。
既然如此,那就直接把整个 PDF 转换为 TXT 再发送就完事了。
首先让无敌的 Claude 3.5 Sonnet 用万能的 Python 写个脚本:
[image]
源码 ↙,其他文件格式你也叫 Claude 写就行。
▶
PDFtoUTF8Text-Converter.py
我也是第一次用,因为很少有发送文件的需求。Claude 会叫你下下载个 Py 库,直接粘贴给出的指令就行。(代理一下下载更快)
[image]
然后这是 Demo 的 PDF,有兴趣的可下载验证:
Photoshop-CS6-...