|-原 QueryList 采集代码实例
QueryList 采集代码实例主要看QueryList的部分,其他的不用理会 20200328//采集traileraddict的首页
public static function collectInfoTraileraddictHome(){
$s=time();
$filename=config('website.logs.collect');//记录采集的日志文件
$baseUrl='';
//待采集的目标页面,PHPHub教程区
$page = 'https://www.traileraddict.com/';//traileraddict的首页
//列表选择器 bxslider
$rang = '#homemenu >li';
//采集规则
$rules = array(
//文章标题
'title' => ['a','title'],
//文章链接
'url' => ['a','href'],
//图片
'source_image' => ['img','src']
);
//采集
$data = \QL\QueryList::Query($page,$rules,$rang)->data;
$rang2= '#top_features >ul >li';
$rules2 = [
//文章标题
'title' => ['h2','text'],
//文章链接
'url' => ['a','href'],
//图片
'source_image' => ['','style','',function($content) use($baseUrl){
$content=str_replace('background-image:url(', '', $content);
$content=str_replace(')', '', $content);
$content='https:'.$content;
return $content;}],
];
$data2 = \QL\QueryList::Query($page,$rules2,$rang2)->data;
$rang3= '.featured_box';
$rules3 = [
//文章标题
'title' => ['a','text'],
//文章链接
'url' => ['a','href'],
//图片
'source_image' => ['a','href','',function($content) {
return '';
}],
];
$data3 = \QL\QueryList::Query($page,$rules3,$rang3)->data;
$i=0;//插入多少条到数据库计数
$j=0;//采集过的二级链接计数
$datas=array_merge($data,$data2,$data3);
$num=count($datas);
浏览更多内容请先登录。
立即注册
更新于:2022-09-01 23:17:15
相关内容
这里专门开个帖子用来整理采集遇到的问题
Linux中使用curl命令访问https站点4种常见错误和解决方法
使用 curl 进行 ssl 认证 -文章是百度搜curl.cainfo找到的
网上之前找的封装php curl的类,小巧且实用,用了挺久
采集的时候把目标网页的内容输出到页面调试的问题
PHP实现抓取百度搜索结果并分析数据结构
CentOS 8 安装Puppeteer 记录
windows wamp SSL certificate problem: unable to get local issuer cert...
安装Puppeteer插件,PHP采集实现抓取百度搜索结果并分析数据结构
采集时遇到报错,去github.com查资料,遇到Github网站打不开的问题,网上找的...
PHP采集时报错Failed to launch the browser process puppeteer
Win7安装nodejs,之后在sublime运行,之后再安装 puppeteer采集网页
puppeteer爬取豆瓣电影信息
解决centos运行node项目puppeteer时chrome错误问题
How to Setup Puppeteer In CentOS 7 用spatie/browsershot成功采集百度...
cnpm 安装的扩展的路径 不好找,觉得还是用npm安装,用国内的镜像源
nodejs 报错 Error: EPERM: operation not permitted, mkdir‘xxxxxxxxx...
新的chrome headless模式 headless=new
nodejs 报错 Error: Could not find Chrome (ver. 119.0.6045.105). This ...
Error: Could not find Chrome 运行js脚本直接执行ok,用php的exec执行脚...
PHP抓取JS渲染后的页面内容
[PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索
WEB技术
WEB技术之前端技术
WEB技术之后端技术
WEB应用转手机APP,手机APP制作平台推荐
WEB应用与手机APP
Android相关
2017 年 Web 开发工程师技术发展路线图
session:手动删除客户端上的所有cookie,再次访问的时候为什么还是登录状态?
WEB技术之前端技术2
推荐内容