为什么网上Python爬虫教程这么多，但是做爬虫的这么少呢？爬虫发展又该是如何呢？ - 查问我看

原 WEB技术之后端技术

|-转为什么网上Python爬虫教程这么多，但是做爬虫的这么少呢？爬虫发展又该是如何呢？

PHPer 2018-03-03 2271 0 0

很多人学习Python进阶可能都写过几个爬虫，但是最终做爬虫的人却比较少呢？是因为真的像别人说的那样，爬虫真的没“技术含量”，还是爬虫随着反爬的不断提升，做爬虫的代价越来越高难以维持成...

很多人学习Python进阶可能都写过几个爬虫，但是最终做爬虫的人却比较少呢？是因为真的像别人说的那样，爬虫真的没“技术含量”，还是爬虫随着反爬的不断提升，做爬虫的代价越来越高难以维持成本？还希望能谈一谈爬虫的发展该是怎样的？可能做到双赢吗？请指教

python教程

python研究者，有空会出一套系统的python教程

网上教程多，是因为入门简单，容易获得成就感，容易忽悠小白

爬虫就是因为太有技术含量，所以会的人少，可能看起来做的人就少了

爬虫远比我们想的复杂

大多数人会的，只是造一颗螺丝钉，而整个爬虫系统，就好比造火箭

大多数人，只掌握了入门级的水品，也就是最多能造个螺丝钉，造不出火箭

为什么我说爬虫远比我们想的复杂呢？

爬虫绝不是表面的用requests、urllib，发个http请求那么简单

就如同楼上的几位回答者所说，如果只是发个http请求，根本用不着专门来学，随便找个火车头之类的工具，拖几下鼠标就搞定了

实际情况中，你要抓人家的数据，会有很多门槛：

1.人家检测出你是爬虫，拉黑你IP （人家究竟是通过你的ua、行为特则还是别的检测出你是爬虫的？你怎么规避？）

2.人家给你返回脏数据，你怎么辨认？

3.对方被你爬死，你怎么设计调度规则？

4.要求你一天爬完10000w数据，你一台机器带宽有限，你如何用分布式的方式来提高效率？

5.数据爬回来，要不要清洗？对方的脏数据会不会把原有的数据弄脏？

6.对方的部分数据没有更新，这些未更新的你也要重新下载吗？怎么识别？怎么优化你的规则？

7.数据太多，一个数据库放不下，要不要分库？

8.对方数据是JavaScript渲染，那你怎么抓？要不要上PhantomJS？

9.对方返回的数据是加密的，你怎么解密？

10.对方有验证码，你怎么破解？

11.对方有个APP，你怎么去得到人家的数据接口？

12.数据爬回来，你怎么展示？怎么可视化？怎么利用？怎么发挥价值？ ...

浏览更多内容请先登录。 立即注册

WEB, WEB后端, Python

更新于：2018-03-03 17:48:25

您需要登录后才可以评论。立即注册

原 WEB技术之后端技术

|-转 为什么网上Python爬虫教程这么多，但是做爬虫的这么少呢？爬虫发展又该是如何呢？

7

1221

134w+

228

服务器搭建

WEB

个人爱好

游戏

linux

互联网

操作系统

mysql

Python

Yii2

php

WEB后端

网站建设

采集

WEB前端

Centos

经济

工具

生活

内容整理

数据库

资源

OS

电影

JS

常用命令

保险

php项目

问题整理

IT

网站

魔兽世界

composer

NodeJs

观点

AI

欧美电影

Yii扩展

美女

学习

LAMP

全文索引

Apache

前端

发现

Windows

Android

影评

服务器维护

国产电影

uwow

PHP框架

邮件服务器

评测

随笔

服务器

音乐

历史

推荐内容

|-转为什么网上Python爬虫教程这么多，但是做爬虫的这么少呢？爬虫发展又该是如何呢？