python 爬虫入门，单页面爬取图片

导入相应模块

import requests
import urllib.request
from lxml import etree

请求头部，模拟浏览器访问

headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3423.2 Mobile Safari/537.36'
}

爬取图片的访问地址

url ='http://www.meizitu.com/a/5592.html'

使用 requests 请求（访问）网页

html = requests.get(url,headers=headers).content

使用 etree 解析整个网页

xp_html = etree.HTML(html)

使用 xpath 定位到需要爬取的图片名称以及连接

imgnames = xp_html.xpath('//div/p/img/@alt')
imgurls = xp_html.xpath('//div/p/img/@src')

循环下载连接中的图片并按照名称保存到 D 盘 XX 文件夹下

for (imgname,imgurl) in zip(imgnames,imgurls):
try:
urllib.request.urlretrieve(imgurl,'D:\XX\%s.jpg' % imgname)
except Exception as e:
print(imgname + '：下载出错，地址为：'+ imgurl)

print('下载完成')

python 爬虫入门，多页面爬取图片（升级版）

#导入相应模块 import requests from lxml import etree import urllib.request #网站主连接，用作后面的拼接 url_main='http://www.tu11.com' #使用 input，让用户可以自定义爬取页数 6 x=input('请输入页数,注意，爬取 ..

Python 爬虫系列（二）基本库的使用

[图片] urllib 的使用 urlib 是 python 内置的请求库，不需要额外安装 urllib 包含如下 4 个模块： request：最基本的 http 请求模块，模拟请求发送 error：异常处理模块 parse：工具模块 robotparser：用来识别网站的 robots.txt，用的很少 urlop ..

python 爬虫简介

re 模块的使用在 Python 中，我们可以使用内置的 re 模块来使用正则表达式 import re ''' re.findall通过正则表达式筛选出文本中所有符合条件的数据 ''' # info = re.findall('python', 'hello this is python3.8 and python ..

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

1. 前景提要在网上冲浪的时候看到原来 NASA 航天局有科普网站，每天一张科普图片，而且是非常高清的那种，很想下载下来做壁纸。所以打算写一个 Java 爬虫爬取所有的图片，也可以加入一些通知，每天晚上进行检查，当检查到有更新的时候，第二天早上起床推送到手机端。当然这个功能还没有实现。 2. 进行开发 2.1 开发 ..

网站为什么要反爬虫？

互联网有很多业务或者说网页，是不需要用户进行登录的，这些不需要登录的页面，往往会包含大量的聚合信息，比如新闻门户网站、视频门户网站、搜索引擎，这些信息是公开的，是可以被爬虫抓取的。一、网站为什么要反爬虫？ 1、爬虫占总 PV 比例较高，浪费服务器资源通过程序进行 URL 请求去获得数据的成本是很低的，这就造成大量低 ..

某解析 b 站 MP4 视频的逆向获取

直接获取 B 站视频找到的都是分段的合成视频，于是乎在网上看到一个工具他做的视频解析可以解析出 mp4 的地址，遂转而直接研究从解析网站拿到视频地址，分析思路：首先模拟正常的请求，发现网址在这个地方，禁止 js 之后发现这个位置就空白了，很明显这段显示是 js 动态处理了 [图片] 然后，我猜测是不是，有 aja ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于