yuedegou 在 本地多模态私密聊天记录Agent——Lens分享 中发帖
感谢L站这么多大佬的分享和帮助,尤其郑重感谢@ouyangqiqi 琪琪姐的《黑与白公益站》帮助我实现了这个项目的标注。
Lens 是一个端到端的数据处理流水线,将 CHATAPP(如微信) 聊天导出的原始数据(文本、图片、语音、视频、表情包、链接和文件)转化为结构化、隐私安全的 JSONL 数据集,适用于大语言模型的监督微调(SFT)。系统采用本地-云端协同处理架构 :在本地完成多模态信息解析并加上多维度匿名处理后交由云端大模型标注(本地模型标注也可以),将人工和agent审核的标注文件反匿名处理后回到本地进行真实信息训练,并最终可以在本地用真实信息对话讨论。在数据流水线之上,还包含一个基于处理后数据训练的四层检索动态 RAG 全栈 AI 关系顾问系统,可与网页端直接交互。多模态在本地支持敏感内容的准确解析,不会数据泄漏。
项目链接:
fortitudelucifer/Lens_o...