|-转 使用puppeteer爬取网站,抓出404无效链接(2022年5月实测有效)
检查网页无效链接
前言
自动化技术可以帮助我们做自动化测试,同样也可以帮助我们完成别的事情,比如今天我们要做的检查网站404无效链接。
原理
实现这样的功能,大致分为以下步骤: 1.打开官网首页,获取页面上所有的链接。 2.添加规则对这些链接过滤,把外链去掉。 3.遍历访问这些链接,打开打开其中的每一个链接,检查是否为404,如果是距离下来。 4.重复执行1,2,3。直到把整个网站所有的链接都遍历完。
准备
- CukeTest一款可以专业的编辑自动化脚本的工具。cuketest.com/
- puppeteer一个非常流行自动化库。github.com/GoogleChrom…
实现
CukeTest中新建一个项目。
删掉features目录。新建一个demo.js文件。
安装puppeteer
npm install puppeteer --save
主要方法讲解
pupputeer内置监听事件,可以很快拿到每个请求的响应结果。
puppeteer可以创建Chromium实例。创建方式如下:
let puppeteer = require('puppeteer'); browser = await puppeteer.launch({ headless: true }); page = await browser.newPage(); await browser.close();
puppeteer 提供事件监听,可以监听到每个页面的响应状态,为每个请求添加响应事件,如果响应状态码为404,记录到文件中。 ...
浏览更多内容请先登录。
立即注册
分享的网址网站均收集自搜索引擎以及互联网,非查问网运营,查问网并没有提供其服务,请勿利用其做侵权以及违规行为。
更新于:2022-05-30 23:15:19
相关内容
聊天服务器搭建-使用snap+Nginx快速安装RocketChat(2022年6月最新版)
在OnpenVZ 上安装Rocket Chat 实测中
网站如何知道浏览器的用户在使用什么语言
软件使用总结
2018年必须要吐槽下迅雷,开了迅雷网页打开很慢
开源论坛软件Nodebb 现代网络社区平台搭建教程(2022年6月已实测,基本OK的)
mysqli的基本使用
推荐内容