近战法师 (@leeorz)一个爬取文档型站点的小脚本,方便生成知识库 中发帖

背景
平常开发的时候经常要阅读第三方包文档。通常是粗读整个文档,对各个模块有概念了以后就上手写,写的时候再去翻文档找调用细节。
这里面其实有两个点可以用 ai 加速,一个是让它介绍开发包,一个是让它基于第三方包直接实现某个功能函数。而且大部分情况下,并不需要用到第三方包全部的功能,ai 可以很好的帮你过滤不需要的信息。
那么问题就来了,即便是联网模型,也经常基于互联网上过时或低质量资料胡说八道。
所以最好的方式就是用非联网模型基于第三方包的官方文档进行问答。
@kangfenmao 大佬的 cherry 的知识库很好用,可惜只能抓单个url,或者抓站点的 sitemap,有些没有 sitemap 的站点就难受了
所以我糊了一个脚本,去抓文档型站点,生成 markdown 作为姿势库。
脚本
脚本原理是选择一个种子 url 作为起点,爬取种子 url 下所有相同域名的 url,开...