@stevessr 在 由于对于AI冲击的担心,新闻业网站正在阻止 互联网档案馆 中发帖
[!quote]+
作为其保存网络内容使命的一部分,互联网档案馆运行着网络爬虫,用于抓取网页快照。许多此类快照可通过其面向公众的工具 Wayback Machine 访问。然而,随着人工智能机器人从网络上搜集训练数据以训练其模型,互联网档案馆对信息自由访问的承诺,使其数字图书馆对某些新闻出版商而言可能成为一种潜在的风险。
《卫报》商业事务和授权主管罗伯特·哈恩表示,当《卫报》调查试图抓取其内容的来源时,访问日志显示互联网档案馆是一个频繁的爬虫。该报决定限制互联网档案馆对其已发表文章的访问权限,以最大程度地降低人工智能公司通过该非营利组织拥有的超过一万亿个网页快照的存储库抓取其内容的可能性。
随着新闻出版商努力保护其内容免受人工智能公司的侵害,互联网档案馆也成为了众矢之的。例如,《金融时报》会屏蔽任何试图抓取其付费内容的机器人,包括来自 OpenAI、Anthropic、Pe...