繁星之子卡萨蒂亚 (@Kasidia) 在想请教一下，如何抓取2000多条URL里特定HTML区域的数据中发帖最近在学习虚幻5引擎，想把虚幻5最新版本的中文文档下载到本地，然后丢到lobechat的知识库里，这样有问题可以方便问AI 我已经把文档里每一个页面的URL给抓出来了但是呢，用python配合chromedriver自动连续访问，会直接被Cloudflare拦截（我已经配置了随机等待2~5秒）要如何才能顺利保存全部的数据呢？这是所有的URL unreal_docs_links.txt (255.4 KB) 我让AI给我整的脚本 import osimport timeimport randomfrom bs4 import BeautifulSoupfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.chrome.s...

繁星之子卡萨蒂亚 (@Kasidia) 在想请教一下，如何抓取2000多条URL里特定HTML区域的数据中发帖

最近在学习虚幻5引擎，想把虚幻5最新版本的中文文档下载到本地，然后丢到lobechat的知识库里，这样有问题可以方便问AI 
我已经把文档里每一个页面的URL给抓出来了 
但是呢，用python配合chromedriver自动连续访问，会直接被Cloudflare拦截（ 我已经配置了随机等待2~5秒） 
要如何才能顺利保存全部的数据呢？ 
这是所有的URL 
unreal_docs_links.txt (255.4 KB) 
我让AI给我整的脚本 
import os
import time
import random
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.s...