PHP 爬虫体验（三） - 使用PHP + puppeteer爬取js动态渲染的页面内容 spatie/browsershot封装 - 查问我看

转 How to Setup Puppeteer In CentOS 7 用spatie/browsershot成功采集百度知乎豆瓣B站

|-转 PHP 爬虫体验（三） - 使用PHP + puppeteer爬取js动态渲染的页面内容 spatie/browsershot封装

PHPer 2023-11-26 472 0 0

之前写的两篇爬虫体验基本上涵盖了一般的Html页面提取场景，但是有些时候，如果目标页面不是纯静态的页面，而是使用js动态渲染的页面（比如one），之前的爬虫就不好使了，这种时候就要借助一些其他工具来进行实现。

一般爬取动态页面的思路是通过软件模拟浏览器行为获取到渲染后的页面镜像，然后再对渲染后的页面进行分析，常用的工具有selenium，phantomJs，puppeteer等，通过对项目维护程度、对PHP友好度的对比，我选用的是puppeteer。

根据官方介绍，谷歌在2017年开发了自家Chrome浏览器的Headless特性，puppeteer便是这个时候诞生的，它的原理是通过调用Chrome DevTools开放的接口与Chrome通信，将浏览器开放接口进行封装，方便用户调用，可以很容易地实现浏览器行为的模拟。

尝试一下puppeteer，安装起来其实非常简单：

npm i puppeteer

根据官方API写了example.js进行测试：...

浏览更多内容请先登录。 立即注册

采集

更新于：2023-11-26 17:01:55

您需要登录后才可以评论。立即注册

转 How to Setup Puppeteer In CentOS 7 用spatie/browsershot成功采集百度知乎豆瓣B站

|-转 PHP 爬虫体验（三） - 使用PHP + puppeteer爬取js动态渲染的页面内容 spatie/browsershot封装

7

1326

168w+

229

服务器搭建

WEB

个人爱好

游戏

linux

互联网

操作系统

mysql

Python

Yii2

php

WEB后端

采集

网站建设

WEB前端

Centos

工具

经济

生活

内容整理

数据库

资源

OS

电影

JS

常用命令

保险

php项目

问题整理

IT

网站

魔兽世界

composer

NodeJs

观点

AI

欧美电影

Yii扩展

美女

学习

LAMP

全文索引

Apache

前端

发现

Windows

Android

影评

服务器维护

国产电影

uwow

PHP框架

邮件服务器

音乐

评测

随笔

服务器

历史

推荐内容