WEB技术之后端技术

为什么网上Python爬虫教程这么多,但是做爬虫的这么少呢?爬虫发展又该是如何呢?

PHPer 2018-03-03 226次浏览 0条评论 0 0 0
很多人学习Python进阶可能都写过几个爬虫,但是最终做爬虫的人却比较少呢?是因为真的像别人说的那样,爬虫真的没“技术含量”,还是爬虫随着反爬的不断提升,做爬虫的代价越来越高难以维持成...
很多人学习Python进阶可能都写过几个爬虫,但是最终做爬虫的人却比较少呢?是因为真的像别人说的那样,爬虫真的没“技术含量”,还是爬虫随着反爬的不断提升,做爬虫的代价越来越高难以维持成本?还希望能谈一谈爬虫的发展该是怎样的?可能做到双赢吗?请指教
python教程
python研究者,有空会出一套系统的python教程

网上教程多,是因为入门简单,容易获得成就感,容易忽悠小白

爬虫就是因为太有技术含量,所以会的人少,可能看起来做的人就少了

爬虫远比我们想的复杂

大多数人会的,只是造一颗螺丝钉,而整个爬虫系统,就好比造火箭

大多数人,只掌握了入门级的水品,也就是最多能造个螺丝钉,造不出火箭

为什么我说爬虫远比我们想的复杂呢?

爬虫绝不是表面的 用requests、urllib,发个http请求那么简单

就如同 楼上的几位回答者所说,如果只是发个http请求,根本用不着专门来学,随便找个火车头之类的工具,拖几下鼠标就搞定了

实际情况中,你要抓人家的数据, 会有很多门槛:

1.人家检测出你是爬虫,拉黑你IP (人家究竟是通过你的ua、行为特则 还是别的检测出你是爬虫的?你怎么规避?)

2.人家给你返回脏数据,你怎么辨认?

3.对方被你爬死,你怎么设计调度规则?

4.要求你一天爬完10000w数据,你一台机器带宽有限,你如何用分布式的方式来提高效率?

5.数据爬回来,要不要清洗?对方的脏数据会不会把原有的数据弄脏?

6.对方的部分数据没有更新,这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?

7.数据太多,一个数据库放不下,要不要分库?

8.对方数据是JavaScript渲染,那你怎么抓?要不要上PhantomJS?

9.对方返回的数据是加密的,你怎么解密?

10.对方有验证码,你怎么破解?

11.对方有个APP,你怎么去得到人家的数据接口?

12.数据爬回来,你怎么展示?怎么可视化?怎么利用?怎么发挥价值? ...

登录 | 立即注册

更新于:2018-03-03 17:48:25
    您需要登录后才可以评论。 登录 | 立即注册
    相关内容

    网站如何知道浏览器的用户在使用什么语言

    http://www.360doc.com/content/15/1110/21/3884271_512215449.shtml我们会看到很多支持多语言的网站,有些早期的网站在首页会有一个链接,让用户自己来选希望...

    什么是 SSL、TLS 和 HTTPS?

    原文链接:https://www.websecurity.digicert.com/zh/cn/security-topics/what-is-ssl-tls-https 什么是 S...

    CN2和IPLC专线服务器有什么区别,哪个更好?

    原文链接:https://pc6a.com/2093.html2019-12-17 09:52:46昨天有个小朋友搜索CN2和IPLC专线服务器哪个好,小白组织下就是想问:CN2和IPLC专线服务器有什么区别,...

    WEB技术

    什么是WEB技术?下面会分前端技术和后端技术分别探讨。20180203未完待续。

    WEB技术之前端技术

    WEB技术之后端技术

    WEB应用转手机APP,手机APP制作平台推荐

    WEB应用与手机APP

    Android相关

    2017 年 Web 开发工程师技术发展路线图

    推荐内容

    MySQL数据库设计总结

    规则1:一般情况可以选择MyISAM存储引擎,如果需要事务支持必须使用InnoDB存储引擎。注意:MyISAM存储引擎 B-tree索引有一个很大的限制:参与一个索引的所有字...

    什么是B-Tree

    二叉查找树、平衡二叉树、红黑树、B-/B+树性能对比

    查问我看笔记功能的实现过程-全文搜索待开启,试试yiisoft/yii2-sphinx

    查问我看笔记功能的实现的重点就是全文搜索,如果不用Yii自带的ActiveRecord的话,就要找扩展,先找了个yii-xunsearch,不行太差了,又找了yiisoft/yii2-elasticsearch,...

    yii2框架中使用sphinx使用搜索引擎 多条件选择搜索

    运行php composer.phar require --prefer-dist yiisoft/yii2-sphinx

    超省心游戏加速:Wireguard+udp加速(CentOS版)--(实测:超不省心),以后搜帖...

    Wireguard+udpspeeder+udp2raw游戏加速方案 ---------------------------------------错误报告及解决-----------...

    wireguard+udpspeeder+udp2raw多用户配置

    Wireguard+udpspeeder+udp2raw游戏加速方案改进版-实测有效

    基于CentOS7 Centos8平台搭建邮件服务器

    EwoMail​在Centos8上安装了,各种坑,各种报错。这个集成包太臃肿了。 20200416 EwoMail 已经弃用,国内的一家公司搞的坑爹产品。 20200418

    如何在RHEL8 / CentOS8上安装Webmin

    设置postfix作为邮件发送服务器

    使用Yii2遇到的问题整理

    Yii的东西很多,学习和使用的时候遇到了各种各样的问题,这里记录整理下,方便大家分享。composer安装kartik-v/yii2-mpdf时报错,这里记录下 Yii2用compos...

    Yii2用composer更新时遇到的错误

    Yii2 用composer update 时提示'git' 不是内部或外部命令,也不是可运行的程序或批处理文件

    Yii2​用composer安装kartik-v/yii2-mpdf时报错,成功解决后,再让其支持中文。

    使用Yii2的setFlash和bootstrap.min.js遇到的问题,bootstrap.min.js的bug?

    Yii2的action不支持大小写吗?其实是支持的

    composer install 使用tips-网上找的composer install的使用技巧方法