Scrapy | 豆瓣电影评分爬虫

本 demo 只做学习之用，请勿转载和商用，谢谢 🙏

观察链接

https://movie.douban.com/explore#!type=movie&tag=冷门佳片&sort=recommend&page_limit=20&page_start=0

创建爬虫

 # 创建项目
 $ scrapy startproject douban
 # 创建爬虫
 $ scrapy genspider doubanSpider https://www.douban.com/

doubanSpider.py

# -*- coding: utf-8 -*-
import scrapy
import json
from douban.items import DoubanItem

class DoubanspiderSpider(scrapy.Spider):
    name = 'doubanSpider'
    allowed_domains = ['https://movie.douban.com/']
    start_urls = [
        "https://movie.douban.com/j/search_subjects?type=movie&tag=冷门佳片&sort=recommend&page_limit=20&page_start="
        + str(x) for x in range(1, 50, 1)]

    def parse(self, response):
        rs = json.loads(response.text)
        datas = rs.get("subjects")
        # items.py 中定义的参数
        item = DoubanItem()
        for data in datas:
            item['title'] = data.get('title')
            item['rate'] = data.get('rate')
            item['url'] = data.get('url')
            item['id'] = data.get('id')
            yield item

items.py

# -*- coding: utf-8 -*-
import scrapy

class DoubanItem(scrapy.Item):
    title = scrapy.Field()
    rate = scrapy.Field()
    url = scrapy.Field()
    id = scrapy.Field()
    cover = scrapy.Field()

pipelines.py

# -*- coding: utf-8 -*-

class DoubanPipeline:
    def process_item(self, item, spider):
        with open('text.txt', 'a') as f:
            f.write(item['id'] +","+item['rate']+","+item['title']+","+item['url'] + "\n")
            f.close()
        return item

特别注意 setting.py 文件

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT 需要，不开启会一直 403 拒绝访问
USER_AGENT = 'douban (+http://www.yourdomain.com)'

# Obey robots.txt rules
# 忽略 robots.txt 文件
ROBOTSTXT_OBEY = False

# 做一个有道德的人 设置一下下载延迟
DOWNLOAD_DELAY = 3

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# ITEM_PIPELINES 记得开启一下
ITEM_PIPELINES = {
   'douban.pipelines.DoubanPipeline': 300,
}

运行爬虫

$ scrapy crawl doubanSpider

数据入库

piplines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# 安装 Mysqlclient
# pip3 install Mysqlclient
# ln -s /usr/local/mysql/bin/mysql_config /usr/local/bin/mysql_config
# 参考 https://www.jianshu.com/p/6411c14ce3f1

# scrapy crawl doubanSpider
# 运行爬虫的时候可能 MySQLdb 遇到个坑
# ImportError: dlopen(/Users/xxx/.local/share/virtualenvs/MyDjango-c9TXLMy3/lib/python3.6/site-packages/MySQLdb/_mysql.cpython-36m-darwin.so, 2): Library not loaded: libcrypto.1.0.0.dylib
# 参考这里 https://www.cnblogs.com/Peter2014/p/10937563.html
import MySQLdb

class DoubanPipeline:
    def __init__(self):
        self.conn = MySQLdb.connect('localhost', 'root', '123456', 'python_spider', charset="utf8", use_unicode=True)
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
        # 写文件
        # with open('text.txt', 'a') as f:
        #     f.write(item['id'] +","+item['rate']+","+item['title']+","+item['url'] + "\n")
        #     f.close()
        # return item

        # 入库
        insert_sql = "insert into douban(movie_id, title, rate, url)VALUES (%s, %s, %s, %s)"
        self.cursor.execute(insert_sql, (item['id'], item['rate'], item['title'], item['url']))
        self.conn.commit()
        print('正在插入数据...')
        return item

    def close_spider(self, spider):
        # 接收结束信号
        self.conn.close()
        print('完成数据插入...')

项目地址

pycodes/douban_spider at master · GlacierBo/pycodes 一些拙劣的代码，见笑. Contribute to GlacierBo/pycodes development by creating an account on GitHub. GitHub - github.com

某豆瓣小组删帖考察——基于我的豆瓣小组爬虫

爬虫地址：https://github.com/lixiang810/NSDBG-Next 我在今年 8 月开发出了这个爬虫，用于保存我所在某小组的讨论。此后我加入了检验帖子是否被删除的功能：指定爬取页数，将爬取下的每页帖子列表与数据库中这一段时间的帖子列表进行比较，存在于数据库而不存在于爬取数据中的帖子即为疑似删除。 ..

[北京] 豆瓣招聘前端实习生一名

关于我们：在豆瓣，我们推崇简单、务实的工作方式，在轻松、快乐的工作环境中积累和分享。你不只是在豆瓣工作，是和一群志趣相投的人一起生活！豆瓣信息：公司坐标：北京朝阳区酒仙桥办公环境： [链接] 更多职位： [链接] 简历直投： [链接] 职位信息前端开发实习生职位描述与产品经理、设计师、后端 /客户端工程师 ..

Puppeteer 爬取豆瓣小组公开信息

[图片] 题外话老王，最近取了笔名。不仅仅是笔名，字、号也统统安排。上官追风，字追风，号追风居士。非要给它一个解释的话，那就是「追风少年宅家里」。老王的行文路线其实就是他的思维路线路。 Puppeteer 面对未知的事物，最好的老师显然是搜索引擎，而搜索引擎中公认最好的又是 Google 搜索。 [图片] Pu ..

为什么这部电影的豆瓣评分我不认可？—— 一点数据分析的视角

源代码: https://github.com/cqcn1991/movie-compare 文中涉及的交互式散点图: https://cdn.rawgit.com/cqcn1991/movie-compare/master/clusters.html 之前其实写过这个问题 [1]，不过没有在这里分享过，这里简单写一下 ..

Python&Scrapy 异常解决：requests.exceptions.InvalidHeader: Invalid return character or leading space in header: Referer

[图片] 先说结论，产生这问题的根本原因是因为在写头部信息的时候，不小心在‘Referer’值的开头加入了空格导致的，错误示范如下所示： headers={ 'Host': 'www.baidu.com', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Window ..

来来 scrapy 爬取各大网站每日热点新闻

一.背景最近玩爬虫，各种想爬，scrapy 又非常好用。想多爬一点东西，决定爬一爬各大网站的热点新闻。想到就开始做了哈项目已经爬取：豆瓣，微博，百度贴吧，虎扑， github，百度今日热点二.上代码 1.开始搭建项目 scrapy startproject crawl_everything #起了个叼叼 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Scrapy | 豆瓣电影评分爬虫

观察链接

创建爬虫

doubanSpider.py

items.py

pipelines.py

特别注意 setting.py 文件

运行爬虫

数据入库

项目地址

相关帖子

某豆瓣小组删帖考察——基于我的豆瓣小组爬虫

[北京] 豆瓣招聘前端实习生一名

Puppeteer 爬取豆瓣小组公开信息

为什么这部电影的豆瓣评分我不认可？—— 一点数据分析的视角

Mac 下的豆瓣 FM 桌面应用

Python&Scrapy 异常解决：requests.exceptions.InvalidHeader: Invalid return character or leading space in header: Referer

来来 scrapy 爬取各大网站每日热点新闻

欢迎来到这里！

Scrapy | 豆瓣电影评分爬虫

观察链接

创建爬虫

doubanSpider.py

items.py

pipelines.py

特别注意 setting.py 文件

运行爬虫

数据入库

项目地址

相关帖子

某豆瓣小组删帖考察——基于我的豆瓣小组爬虫

[北京] 豆瓣 招聘前端实习生一名

Puppeteer 爬取豆瓣小组公开信息

为什么这部电影的豆瓣评分我不认可？—— 一点数据分析的视角

Mac 下的豆瓣 FM 桌面应用

Python&Scrapy 异常解决：requests.exceptions.InvalidHeader: Invalid return character or leading space in header: Referer

来来 scrapy 爬取各大网站每日热点新闻

欢迎来到这里！

[北京] 豆瓣招聘前端实习生一名