繁星之子卡萨蒂亚 (@Kasidia) 在 想请教一下,如何抓取2000多条URL里特定HTML区域的数据 中发帖
最近在学习虚幻5引擎,想把虚幻5最新版本的中文文档下载到本地,然后丢到lobechat的知识库里,这样有问题可以方便问AI
我已经把文档里每一个页面的URL给抓出来了
但是呢,用python配合chromedriver自动连续访问,会直接被Cloudflare拦截( 我已经配置了随机等待2~5秒)
要如何才能顺利保存全部的数据呢?
这是所有的URL
unreal_docs_links.txt (255.4 KB)
我让AI给我整的脚本
import os
import time
import random
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.s...