贝贝 (@tkk) 在 AI Labyrinth ,用魔法打败魔法 中发帖
写一点学习记录,练练写作能力,不过怎么看起来 AI 味儿那么浓,确实是手敲的啊 🤥
CloudFlare 推出 AI Labyrinth ,可引诱 AI 爬虫进入信息迷宫,避免重要数据被爬取。
什么是爬虫?
爬虫是一种自动化程序,用于访问目标网站并获取网页内容,我们使用的搜索引擎也是一种爬虫。
其工作流程大致为「访问网站——解析robots.txt确定爬取规则——解析站点地图sitemap.xml(如有)遍历页面——获取网页内容并进行清洗(文字、图片、超链接等),将超链接加入待抓取列表——遍历所有页面,完成数据抓取」。
robots.txt记录了网站所有者规定的爬取规则,限制了哪些能爬取哪些不能,存放在网站根目录。不过防君子不防小人,它并不能约束爬虫行为。AI 时代要更加重视robots.txt,更新不及时、User-agent包含不全都有可能造成严重的数据泄露和网站崩溃,Open...