KaiWen (@yuepaiji)想和大家探讨一下技术合规的边界问题。各位理性讨论,不要带有情绪。 中发帖

先声明:发这个帖子不是为了针对或质疑特定的开源项目,而是作为一个开发者,想和大家探讨一下技术合规的边界问题。 
最近在看一个很火的 AI 舆情开源项目(微舆 BettaFish),它的 README 里提到能实现“AI爬虫集群 7x24 小时不间断作业,全面覆盖微博、小红书等社媒,下钻海量评论”。
结合之前看到的一个新闻:《非法爬取小红书数据牟利,侵权公司终审败诉被判赔490万》,我产生了一些疑惑:


像小红书、微博这种有严格反爬机制的平台,如果真的做到“7x24小时海量下钻”,在没有官方授权 API 的情况下,这在实操层面是不是必定触犯了《反不正当竞争法》甚至刑法?


开源项目在 README 里把这种高并发、全域抓取作为特性宣传,虽然代码本身可能是中立的(或者带了免责声明),但这种行为本身有风险吗?


回到我们普通开发者身上:我自己平时也写过一些爬虫项目(比如针对 wx、...