|-摘 2022年可用的Python简单又好用的采集代码(2022年4月)
运行版本是Python3.8.9,操作系统Win7
网上找的代码,很多已经过了时效了,自己整理了,找了网上别人写的代码,实测后修改完善了下
# author : sunzd # date : 2019/3/22 # position: chengdu from fake_useragent import UserAgent from urllib import request from urllib import error import pymysql import re import sys import time class HtmlDownloader(object): def downloader(self, url): if url is None: print("downloader: Url is None") return None # 设置用户代理 # headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'} # 使用伪代理fake UserAgent进行访问 #禁用服务器缓存 ua = UserAgent(use_cache_server=False) #不缓存数据,这里如果选择不缓存,程序可能报错,所以注释掉 # ua = UserAgent(cache=False) #忽略ssl验证 ua = UserAgent(verify_ssl=False) headers = {'User-Agent': str(ua.random)} # print(url) req = request.Request(url, headers=headers) try: html = request.urlopen(req).read() except error.URLError as e: print("download error:", e.reason) html = None return html url="https://movie.douban.com/subject/1889243/" get = HtmlDownloader() html=get.downloader(url) if html!=None: content = html.decode() else : content = '' print(content)
正在学Python(PHP熟的话,上手快),后面还会分享些Python代码,O(∩_∩)O ...
浏览更多内容请先登录。
立即注册
更新于:2022-05-27 11:30:00
相关内容
python代码整理(2022年4月)
Python和PHP获取百度url跳转的真实地址代码(2022年4月实测有效)
WEB技术
WEB技术之前端技术
WEB技术之后端技术
WEB应用转手机APP,手机APP制作平台推荐
WEB应用与手机APP
Android相关
2017 年 Web 开发工程师技术发展路线图
推荐内容