各种采集应用和采集插件的安装整理

PHPer 2022-05-22 419 0 0

这里做个整理,网上有些文章时不时不能访问,自己备份下 20220522 17:20...

立即注册

更新于:2022-05-22 17:21:03
    您需要登录后才可以评论。 立即注册

    php-webdriver 配合chromedriver 采集 (Windows系统)(2023年12月)

    系统环境Win10,PHP8.0。此方法最大好处是能获取JS生成的内容。

    首先查看chrome版本,谷歌浏览器输入下面命令查看

    chrome://version/
    

    https://googlechromelabs.github.io/chrome-for-testing/下载好对应版本的chromedriver

    我的windows下载的是 win64的

    9f10c430ef-qq-jie-tu20231211235815_normal.jpg

    下载后运行,看到运行在了端口9515上,后面配置的时候要用到。

    b6d1b5a50b-qq-jie-tu20231211235925_normal.jpg ...

    立即注册
    更新于:2023-12-12 01:01:24

    PHP Querylist采集插件Puppeteer的安装

    此方法已经不好用了 2023年12月备注

    使用PuppeteerDOM解析JavaScript动态渲染的页面。使用此插件需要有一定的Node.js基础知识,并且会配置Node运行环境。

    此插件是基于PuPHPeteer包的简单封装,支持使用Puppeteer所有的API,非常强大!

    环境要求

    PHP >= 7.1

    Node >= 8

    安装

    1, 安装插件

    composer require jaeger/querylist-puppeteer --ignore-platform-reqs
    

    2,安装Node依赖(与composer一样在项目根目录下执行)

    如果不是在项目根目录执行,之后运行QueryList代码会报错,提示 Cannot find module 'lodash' Require stack,但是你安装了lodash,还是一样会报这个错,所以npm或者yarn安装时要在项目根目录

    Error:The command "'node' '/.../vendor/nesk/rialto/src/node-process/serve.js' '/.../vendor/nesk/puphpeteer/src/PuppeteerConnectionDelegate.js' '{"idle_timeout":60,"log_node_console":false,"log_browser_console":false}'" failed. Exit Code: 1(General error) Working directory: /.../frontend/web Output: ================ Error Output: ================ node:internal/modules/cjs/loader:936 throw err; ^ Error: Cannot find module 'lodash' Require stack: - /.../vendor/nesk/rialto/src/node-process/NodeInterceptors/StandardStreamsInterceptor.js - /.../vendor/nesk/rialto/src/node-process/NodeInterceptors/ConsoleInterceptor.js - /.../vendor/nesk/rialto/src/node-process/serve.js at Function.Module._resolveFilename (node:internal/modules/cjs/loader:933:15) at Function.Module._load (node:internal/modules/cjs/loader:778:27) at Module.require (node:internal/modules/cjs/loader:1005:19) at require (node:internal/modules/cjs/helpers:102:18) at Object. (/.../vendor/nesk/rialto/src/node-process/NodeInterceptors/StandardStreamsInterceptor.js:3:11) at Module._compile (node:internal/modules/cjs/loader:1105:14) at Object.Module._extensions..js (node:internal/modules/cjs/loader:1159:10) at Module.load (node:internal/modules/cjs/loader:981:32) at Function.Module._load (node:internal/modules/cjs/loader:822:12) at Module.require (node:internal/modules/cjs/loader:1005:19) { code: 'MODULE_NOT_FOUND', requireStack: [ '/.../vendor/nesk/rialto/src/node-process/NodeInterceptors/StandardStreamsInterceptor.js', '/.../vendor/nesk/rialto/src/node-process/NodeInterceptors/ConsoleInterceptor.js', '/.../vendor/nesk/rialto/src/node-process/serve.js' ] }
    

    下面安装Node依赖

    npm install @nesk/puphpeteer
    

    或者使用yarn安装Node依赖:

    yarn add @nesk/puphpeteer
    

    如果npm安装速度太慢,可以尝试更换国内npm镜像源:

    npm config set registry https://registry.npm.taobao.org
    

    插件注册选项

    QueryList::use(Chrome::class,$opt1)

    $opt1: 设置chrome函数别名

    API

    chrome($url, $options = []) 使用Chrome打开链接,返回值为设置好HTML的QueryList对象

    参数$url: 要访问的网页链接地址

    参数$options: 设置Puppeteer的launch()方法的选项,全部选项:puppeteer.launch([options])

    用法

    在QueryList中注册插件

    use QL\QueryList;
    use QL\Ext\Chrome;
    $ql = QueryList::getInstance();
    // 注册插件,默认注册的方法名为: chrome
    $ql->use(Chrome::class);
    // 或者自定义注册的方法名
    $ql->use(Chrome::class,'chrome');
    

    基本用法 ...

    立即注册
    更新于:2023-12-12 00:10:46

    PHP采集页面的四种方法

    本文给出的方法是最基本的PHP采集方法,很多网站都做防采集的处理,对于这些网站可以尝试使用QueryList(php项目)采集,另外对于JS生成的页面可以用Nodejs采集。

    什么叫采集?

    就是使用PHP程序,把其他网站中的信息抓取到我们自己的数据库中、网站中。

    可以通过三种方法来使用PHP访问到网页

    1. 使用file_get_contents()

    前提:在php.ini中设置允许打开一个网络的url地址。

    904e7509a1_normal.png

    使用这个函数时可以直接将路径写入函数中,将所选路径的内容加载出来,但是在访问网上的网址时必须连接网络

    <?php echo file_get_contents(https://www.baidu.com/);?>
    

    2. 使用socket技术采集:

    socket采集是最底层的,它只是建立了一个长连接,然后我们要自己构造http协议字符串去发送请求。例如要想获取这个页面的内容,http://tv.youku.com/?spm=a2hww.20023042.topNav.5~1~3!2~A,用socket写如下:

    <?php
    //连接,$error错误编号,$errstr错误的字符串,30s是连接超时时间
    $fp=fsockopen("www.youku.com",80,$errno,$errstr,30);
    if(!$fp) die("连接失败".$errstr);
    //构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议
    $http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n"; // \r\n表示前面的是一个命令
    $http.="Host:www.youku.com\r\n"; //请求的主机
    $http.="Connection:close\r\n\r\n"; // 连接关闭,最后一行要两个\r\n
    //发送这个字符串到服务器
    fwrite($fp,$http,strlen($http));
    //接收服务器返回的数据
    $data=;
    while (!feof($fp)) {
    $data.=fread($fp,4096); //fread读取返回的数据,一次读取4096字节
    }
    //关闭连接
    fclose($fp);
    var_dump($data);
    ?>
    

    打印出的结果如下,包含了返回的头信息及页面的源码:

    6911290c31_normal.png

    3、使用fopen获取网页源代码

    <?php
    $url = 'https://www.baidu.com/';
    $opts = array(
        'http'=>array(
            'method'=>"GET",
            'header'=>"Accept-language: en\r\n" .
            "Cookie: foo=bar\r\n"
        )
    );
    $context = stream_context_create($opts);
     
    $fp = fopen($url, 'r', false, $context);
    while(!feof($fp)) {
        $result.= fgets($fp, 1024);
    }
    fpassthru($fp);
    fclose($fp); 
     
    ?>

    4. 使用curl...

    立即注册
    更新于:2022-07-15 12:45:56

    python获取完整网页内容(含js动态加载的):selenium+phantomjs

    https://blog.csdn.net/huwei2003/article/details/107490468 建议安装pip install Selenium4R Selenium4R是 Selenium4的魔改版,国内可以直接安装

    1 不管用requests_html,还是获取网页的源码时,发现通过ajax动态加载的内容都获取不到,得通过分析动态加载的接口去重新请求数据,有时很不方便。

    2 下面我们利用 +phantomjs 来实现一次性获取网页上所有的内容;

    1. 下载Phantomjs,下载地址:https://phantomjs.org/download.html 选择下载windows的还是linux的 2. 下完之后直接解压就OK了,然后selenium的安装用pip就行了

    代码:

    import requests
    from lxml import etree
    from lxml import html
    from html.parser import HTMLParser #导入html解析库
    from selenium import webdriver
    import time
     
    def getHTMLText(url):
            driver = webdriver.PhantomJS(executable_path='E:\\pythontest\\phantomjs-2.1.1-windows\\bin\\phantomjs')  # phantomjs的绝对路径
            time.sleep(2)
            driver.get(url)  # 获取网页
            time.sleep(2)
            return driver.page_source
     
    def getHtmlByXpath(html_str,xpath):
            strhtml = etree.HTML(html_str)
            strResult = strhtml.xpath(xpath)
            return strResult
     
    def w_file(filepath,contents):
        with open(filepath,'w',encoding='gb18030') as wf:
            wf.write(contents)
            
     
     
    def main():
        url = 'https://m.fygdrs.com/h5/news.html?t=2&id=67062' #要访问的网址
        strhtml = getHTMLText(url) #获取HTML
        #print(html)
        w_file('E:\\pythontest\\wfile.txt',strhtml)
        strDiv=getHtmlByXpath(strhtml,"//div[@id='Article-content']")
        if(strDiv):
            str1= html.tostring(strDiv[0])
            print(str1)
            str2 = HTMLParser().unescape(str1.decode())
            print(str2)
            w_file('E:\\pythontest\\wfile3.txt',str2)
            
        print('ok')
     
     
    if __name__ == '__main__':
        main()
    

    --- end --- ...

    立即注册
    更新于:2023-12-10 19:47:52
    相关内容

    省着每分钱,分享介绍各种免费的网上应用

    分享几个免费高质量无版权音乐网站(2022年6月亲测可用)

    这里专门开个帖子用来整理采集遇到的问题

    Linux中使用curl命令访问https站点4种常见错误和解决方法

    使用 curl 进行 ssl 认证 -文章是百度搜curl.cainfo找到的

    网上之前找的封装php curl的类,小巧且实用,用了挺久

    采集的时候把目标网页的内容输出到页面调试的问题

    PHP实现抓取百度搜索结果并分析数据结构

    CentOS 8 安装Puppeteer 记录

    windows wamp SSL certificate problem: unable to get local issuer cert...

    安装Puppeteer插件,PHP采集实现抓取百度搜索结果并分析数据结构

    采集时遇到报错,去github.com查资料,遇到Github网站打不开的问题,网上找的...

    PHP采集时报错Failed to launch the browser process puppeteer

    Win7安装nodejs,之后在sublime运行,之后再安装 puppeteer采集网页

    puppeteer爬取豆瓣电影信息

    解决centos运行node项目puppeteer时chrome错误问题

    How to Setup Puppeteer In CentOS 7 用spatie/browsershot成功采集百度...

    cnpm 安装的扩展的路径 不好找,觉得还是用npm安装,用国内的镜像源

    nodejs 报错 Error: EPERM: operation not permitted, mkdir‘xxxxxxxxx...

    新的chrome headless模式 headless=new

    nodejs 报错 Error: Could not find Chrome (ver. 119.0.6045.105). This ...

    Error: Could not find Chrome 运行js脚本直接执行ok,用php的exec执行脚...

    [PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索

    各种工具应用

    【差评】ScreenToGif:一款小而实用的屏幕录制生成gif工具(并不小巧)

    三款免费好用的Gif制作神器

    Youtube-2022年下载Youtube视频的3个方法和8个工具

    网站地图在线生成工具整理

    分享几个好用的WEB在线工具

    开源软件:我用的录屏软件(Caputure已经不在维护了,最后的版本好像还可以...

    怎样对老视频进行4k修复,使用Topaz Video Enhance AI

    OBS直播基础教程

    安装CUDA Toolkit和cuDNN

    推荐内容

    分享几个好用的bt搜索bt资源下载网址网站

    影视电影剧集动漫综艺bt资源在线播放网址网站推荐分享

    全网最新bt磁力搜索引擎bt资源bt网站网址分享

    人气美女女优百度指数排行榜(波多野结衣,苍井空,三上悠亚,深田咏美,桥本有菜,北条...

    最强人造人深田咏美,业界的社交女王

    人生起起落落的三上悠亚,成名前的清纯风,怎么搭配出来的?

    业内第一大长腿,桥本有菜的腿究竟有多长

    波多野结衣,岛国业界著作最多的超级劳模

    日本AV界NO.1,苍井空是多少宅男的疯狂?

    美女女优视频混剪 This Girl-Laza Morgan

    怎样使用V2Ray代理和SSTap玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩...

    sstap游戏代理教程 从此玩如魔兽世界/绝地求生/LOL台服/战地3/黑色沙漠/彩虹六...

    影视电影剧集动漫综艺bt资源在线播放网址网站推荐分享