变色龙 (@bianselong)开源AI网络爬虫工具:Crawl4AI 中发帖

可以直接用于大语言模型和AI应用。性能快,还能输出适合大语言模型的格式,比如JSON、清理过的HTML和markdown。它还支持同时爬取多个网址,能提取所有媒体标签(图片、音频、视频),以及所有内外部链接。可以自定义用户代理,还能给网页截图,甚至在爬取之前执行自定义JavaScript。 
GitHub (GitHub - unclecode/crawl4ai: 🔥🕷️ Crawl4AI: Open-source LLM Friendly Web Crawler & Scrapper)|官方文档教程 (Home - Crawl4AI Documentation)