数据采集的另一种思路 - 浏览器脚本注入

昨天想去极客时间把购买的一个专栏里的数据扒下来，发现之前写的 python 脚本不能用了，原因是他们网站做了限流、也加了 http 时间戳的一些校验。我们可以将之前的 python 脚本进行改进，用 ip 代理池来处理限流，寻找时间戳验证的规则就可以解决。

但是这次我们用了另外的一种爬虫的思路，就是我们直接写一些 js 脚本，在对方的网站里运行，去请求相应的接口，从而得到想要的数据。

这种思路其实见过很多例子，之前有一个很火的，qq 空间自动点赞的脚本，看过它的源码，其实很简单，就是直接去操作 dom，然后触发一些事件。

另外一个很火的例子，github 上很火的一个 repo， fuckZhihu，据说是 winter 当年退知乎时写的，将自己在知乎的数据保存下来。

下面是这次实践的内容：

获取文章 id 集合

刚进入专栏的时候会有一个获取左侧文章列表集合的请求，在这个接口里，我们就能获取到当前专栏的所有请求。

这个专栏大概有 50 多篇文章，因为限流的原因，我们分成两次进行请求。

注入 FileSaver.js

FileSaver 是一个运行在浏览器中，将数据下载为 json 或者 excel 文件的库。

我们在这里创建一个 script 标签，并将这个标签插入到文档中。

我在这里写了一个方法 downloadJson，我们将等会获取到的数据传到这里来，就可以下载这个 json 文件了。

创建请求

创建 ajax 请求，请求文章详情的接口。

这里我们用原生的 js 来写的，是一个 post 请求，res 就是我们得到这个接口的返回值，我们将需要的数据从这个返回值中取出来就可以了。

上面说的是单个请求的实现。多个请求的实现如下图所示。

然后我们将数据保存一下：

所有的结果都放在 rs 这个数组中了。

下载数据

我们将所有数据放在了一个数组中，在最后一次请求结束的时候，执行我们写好的 downloadJson 方法进行下载就可以了。

导入数据库

json 文件导入数据库网上有很多的工具，我这次是用之前写好的脚本。

这个脚本在我的 github 上面，是用 nodejs 写的，地址：tomysql.js

最后

我们这次没用通用的做法，模拟请求，或者模拟浏览器，而是直接利用浏览器来采集数据，当然也要根据实际情况去选择用哪种做法。

完整的脚本： geek.js

Python 爬虫系列（二）基本库的使用

[图片] urllib 的使用 urlib 是 python 内置的请求库，不需要额外安装 urllib 包含如下 4 个模块： request：最基本的 http 请求模块，模拟请求发送 error：异常处理模块 parse：工具模块 robotparser：用来识别网站的 robots.txt，用的很少 urlop ..

python 爬虫简介

re 模块的使用在 Python 中，我们可以使用内置的 re 模块来使用正则表达式 import re ''' re.findall通过正则表达式筛选出文本中所有符合条件的数据 ''' # info = re.findall('python', 'hello this is python3.8 and python ..

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

1. 前景提要在网上冲浪的时候看到原来 NASA 航天局有科普网站，每天一张科普图片，而且是非常高清的那种，很想下载下来做壁纸。所以打算写一个 Java 爬虫爬取所有的图片，也可以加入一些通知，每天晚上进行检查，当检查到有更新的时候，第二天早上起床推送到手机端。当然这个功能还没有实现。 2. 进行开发 2.1 开发 ..

网站为什么要反爬虫？

互联网有很多业务或者说网页，是不需要用户进行登录的，这些不需要登录的页面，往往会包含大量的聚合信息，比如新闻门户网站、视频门户网站、搜索引擎，这些信息是公开的，是可以被爬虫抓取的。一、网站为什么要反爬虫？ 1、爬虫占总 PV 比例较高，浪费服务器资源通过程序进行 URL 请求去获得数据的成本是很低的，这就造成大量低 ..

某解析 b 站 MP4 视频的逆向获取

直接获取 B 站视频找到的都是分段的合成视频，于是乎在网上看到一个工具他做的视频解析可以解析出 mp4 的地址，遂转而直接研究从解析网站拿到视频地址，分析思路：首先模拟正常的请求，发现网址在这个地方，禁止 js 之后发现这个位置就空白了，很明显这段显示是 js 动态处理了 [图片] 然后，我猜测是不是，有 aja ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于