python代码整理(2022年4月-2024年3月)

用undetected_chromedriver代替selenium解决浏览器打不开网页

PHPer 2024-03-10 135 0 0
整理的很完整,good,要是早看到能节省我十几个小时不止,只不过我几乎是也走了一遍试了各种办法都是失败,最后在网上搜到了用undetected_chromedriver,解决了后在考虑有时候undetected_chromedriver启动浏览器会失败的情况,搜的时候搜到了这篇文章 2024年3月10日 23:17

用undetected_chromedriver代替selenium解决浏览器打不开网页-CSDN博客


关于Python爬虫代码打开网页的方法,教科书以及前辈们都推荐requests和selenium两种途径来打开网页。

但现在越来越多网站建立反爬虫机制,比如我最近爬的一个机构网站,首页需要登录,前辈们的旧方法越来越不管用了:

方案1:requests的get和post:需要录入headers,以及post所需的表单数据。但我败在了获取post的表单数据这一步,试了很长时间都无法登录。

结果:requests方案失败。

方案2:selenium的webdriver:打开Chrome浏览器来模拟人工登录,往headers添加user-agent的代码如下:

  1. from selenium import webdriver
  2. from selenium.webdriver.chrome.options import Options
  3. options = webdriver.ChromeOptions()
  4. driver = webdriver.Chrome(options=options)
  5. driver.execute_cdp_cmd("Network.setExtraHTTPHeaders",
  6. {"headers":
  7. {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36",
  8. }
  9. })
  10. url=http://这里改为你要打开的网址
  11. driver.get(url)

浏览器显示:Chrome正受到自动测试软件的控制。某些网站已经检测到是selenium在模拟浏览器,尽管我怎么设置headers也无济于事,浏览器打开的页面不是空白,就是返回400或502等错误代码。

结果:selenium的webdriver方案失败。

方案3:浏览器按F12,打开console,输入命令:window.navigator.webdriver,如果返回True则说明网站会检测selenium的webdriver。前辈们的方法是在driver.get命令之前增加下面的代码,使得window.navigator.webdriver返回undefined:

  1. # 去除“Chrome正受到自动测试软件的控制”的显示
  2. options.add_experimental_option("excludeSwitches", ["enable-automation"])
  3. # 防止网站检测selenium的webdriver
  4. driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  5. "source": """
  6. Object.defineProperty(navigator, webdriver, {
  7. get: () => undefined
  8. })
  9. """})

结果:插入undefined代码,浏览器页面依旧显示空白,失败。

方案4:改用Firefox浏览器,不用添加方案3的代码。

前辈们推荐过该方案,可能对某些网站有效,但在我要爬的机构网站还是失败。代码我就不贴了。 ...

立即注册

更新于:2024-03-10 23:54:38
    您需要登录后才可以评论。 立即注册
    相关内容

    python代码整理(2022年4月-2024年3月)

    Python和PHP获取百度url跳转的真实地址代码(2022年4月实测有效)

    Pip/python-如何查看已安装的包有哪些版本?如何查看某个包存在哪些版本?pip...

    用undetected_chromedriver代替selenium解决浏览器打不开网页

    sublime text下 Python 问题:TabError: inconsistent use of tabs and s...

    Python的扩展和模块安装时遇到的问题整理

    windows环境下python3安装Crypto扩展

    pip install​ 报错 ERROR: Can not execute setup.py since setuptools i...

    运行python -V 报错 -bash: python: command not found

    protobuf requires Python ‘>=3.7‘ but the running Python is 3.6.5的解...

    推荐内容

    分享几个好用的bt搜索bt资源下载网址网站

    影视电影剧集动漫综艺bt资源在线播放网址网站推荐分享

    全网最新bt磁力搜索引擎bt资源bt网站网址分享

    人气美女女优百度指数排行榜(波多野结衣,苍井空,三上悠亚,深田咏美,桥本有菜,北条...

    最强人造人深田咏美,业界的社交女王

    人生起起落落的三上悠亚,成名前的清纯风,怎么搭配出来的?

    业内第一大长腿,桥本有菜的腿究竟有多长

    波多野结衣,岛国业界著作最多的超级劳模

    日本AV界NO.1,苍井空是多少宅男的疯狂?

    美女女优视频混剪 This Girl-Laza Morgan

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    影视电影剧集动漫综艺bt资源在线播放网址网站推荐分享