@eggacheb用cursor写了个网页内容提取器(第二版),支持文章/论坛/微信/知乎,支持输出文本/Markdown/HTML,从而让AI能够读网页链接 中发帖

从用cursor写了个网页内容提取工具,带api,从而让AI能够读网页链接继续讨论: 
因为之前写的那个项目不能提取微信文章,但又不好说那个项目有没有别的适用场景,所以我另开了个仓库来写这个用来新的提取器的项目。我选择了使用 opendatalab/magic-html — opendatalab/magic-html (github.com)来作为提取的网页的主力,然后将jina作为备用之选,因为它可以提取到知乎的内容,所以知乎的内容是没有html格式的。

它将任何 URL 转换为 LLM 友好的输入,并使用 https://r.jina.ai/https://your.url 。免费提高您的代理和 RAG 系统的输出。

项目地址
这次也是可以一键部署到vercel的

🔗 在线演示
访问 https://magic-html-api.vercel.app 体验在线版本。
A...