【python爬虫】获取百度贴吧帖子的python脚本

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re


class Tool:
    removeImg = re.compile('<img.*?>| {7}|')
    removeAddr = re.compile('<a.*?>|</a>')
    replaceLine = re.compile('<tr>|<div>|</div>|</p>')
    replaceTD = re.compile('<td>')
    replacePara = re.compile('<p.*?>')
    replaceBR = re.compile('<br><brr>|<br>')
    removeExtraTag = re.compile('<.*?>')
    removeSpace = re.compile('&nbsp;')
    def replace(self,x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceLine,"\n",x)
        x = re.sub(self.replaceTD,"\t",x)
        x = re.sub(self.replacePara,"\n    ",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        x = re.sub(self.removeSpace," ",x)
        return x.strip()




class BDTB:
    def __init__(self,baseURL,seeLZ,floorTag):
        self.baseURL = baseURL
        self.seeLZ = '?see_lz='+str(seeLZ)
        self.tool = Tool()
        self.file = None
        self.floor = 1
        self.defaultTitle = u"百度贴吧" #默认的标题，如果没有成功获取到标题的话则会用这个标题
        self.floorTag = floorTag

    def getPage(self,pageNum):
        try:
            url = self.baseURL+self.seeLZ + '&pn=' + str(pageNum)
            request = urllib2.Request(url)
            response = urllib2.urlopen(request)
            return response.read().decode('utf-8')

        except urllib2.URLError,e:
            if hasattr(e,"reason"):
                print "fail to connect,reason:",e.reason
                return None
    def getTitle(self,page):
        pattern = re.compile('class="core_title_txt pull-left text-overflow  " title="(.*?)" style="',re.S)
        result = re.search(pattern,page)
        if result:
            return result.group(1).strip()
        else:
            return None

    def getPageNum(self,page):
        pattern = re.compile('<li class="l_reply_num".*?>*?</span>.*?<span.*?>(.*?)</span>')
        result = re.search(pattern,page)
        if result:
            return result.group(1).strip()
        else:
            return None

    def getContent(self,page):
        pattern = re.compile(ur'<div id="post_content_.*?>(.*?)</div>.*?<span class="tail-info">.*?[\u697c]</span><span class="tail-info">(.*?)</span></div>',re.S)
        items = re.findall(pattern,page)
        pattern_author=re.compile('alog-group="p_author".*?target="_blank">(.*?)</a>')
        authors=re.findall(pattern_author,page)
        contents = []
        p=0
        for item in items:
            content = "\n"+self.tool.replace(item[0])+"\n"
            date="\n"+item[1]+"\n"
            dataX=content+date+authors[p]
            contents.append(dataX.encode('utf-8'))
            p=p+1
        return contents



    def setFileTitle(self,title):
        if title is not None:
            self.file = open(title + ".txt","w+")
        else:
            self.file = open(self.defaultTitle + ".txt","w+")


    def writeData(self,contents):
        for item in contents:
            if self.floorTag == '1':
                floorLine = "\n" + str(self.floor) + u"-----------------------------------------------------------------------------------------\n"
                self.file.write(floorLine)
            self.file.write(item)
            self.floor += 1


    def start(self):
        indexPage = self.getPage(1)
        pageNum = self.getPageNum(indexPage)
        title = self.getTitle(indexPage)
        self.setFileTitle(title)
        if pageNum == None:
            print "URL已失效，请重试"
            return
        try:
            print "该帖子共有" + str(pageNum) + "页"
            for i in range(1,int(pageNum)+1):
                print "正在写入第" + str(i) + "页数据"
                page = self.getPage(i)
                contents = self.getContent(page)
                self.writeData(contents)
        except IOError,e:
            print "写入异常，原因：" + e.message
        finally:
            print "写入任务完成！！！"




print u"请输入帖子代号"
baseURL = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))
seeLZ = raw_input("是否只获取楼主发言，是输入1，否输入0\n")
floorTag = raw_input("是否写入楼层信息，是输入1，否输入0\n")
bdtb = BDTB(baseURL,seeLZ,floorTag)
bdtb.start()

双色球组合推荐脚本

[图片] 双色球脚本作用我观察了几期，发现蓝区号码经常是“15”、“05”。所以就想着能不能统计号码抽中次数，然后作为一组号码去购买双色球，这样总比随机来的强一点。本脚本用 python 语言实现项目组织数据库创建一个叫“double_color_ball”的数据库再创建三张表 # 创建 open_numb ..

如何动态的加载油猴脚本调试

手动复制粘贴真的太累了于是写了个通过 xhr 轮询来检测脚本发生变化就重载的脚本用来调试油猴脚本。 // ==UserScript== // @name 调试脚本 // @namespace http://tampermonkey.net/ // @version 0.1 // @description try to ..

手摸手一起研究鲁班电商平台如何自动下单不掉广告费

[图片] 开发背景风和日丽的一天，旧客户推荐了新客户上门找开发，说需要开发一套今日头条鲁班电商平台的自动下单软件。关于鲁班电商平台，大家可以自行百度了解情况，是字节跳动旗下的又称巨量引擎，也算一个新平台。商家入驻鲁班电商之后需要缴纳 2w 大元作为保证金，平台会对商家的商品进行定制推广打造，具体定制推广打造的效果 ..

一次性删除 Mysql 数据库中所有表的数据，保留表结构

1、前言常见的删除数据库表中数据的方法是通过 delete 或者 truncate 的方法进行删除操作，如果删除的是表中某一条或者部分数据的话适合用 delete 操作进行删除，如果要删除表中所有的数据的话，适合是同 truncate 进行删除操作。那么问题来了，如果某一个数据库中有很多张表，此时我想将该数据库中所 ..

mac(linux) 下使用 ssh 免密登录远程 linux 服务器

经常需要发包到远程 linux 的机器上去并部署,每次折腾起来挺麻烦的,又没有资源部署 jenkins 这样的 ci 工具,于是想写一个简单点的自动化打包-构建-部署一条龙脚本,其中最后一步涉及到需要 scp 本地打好的包到目标机器上去,然后 ssh 执行目标机器上指定的部署脚本(文件 hash 校验,程序包备份/替换 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

【python爬虫】获取百度贴吧帖子的python脚本

相关帖子

双色球组合推荐脚本

如何动态的加载油猴脚本调试

手摸手一起研究鲁班电商平台如何自动下单不掉广告费

什么语言可以称得上是脚本语言呢？

自从尝试写了脚本后...

一次性删除 Mysql 数据库中所有表的数据，保留表结构

mac(linux) 下使用 ssh 免密登录远程 linux 服务器

欢迎来到这里！

近期热议

推荐标签标签

最新标签

【python爬虫】获取百度贴吧帖子的python脚本

相关帖子

双色球组合推荐脚本

如何动态的加载油猴脚本调试

手摸手一起研究鲁班电商平台如何自动下单不掉广告费

什么语言可以称得上是脚本语言呢？

自从尝试写了脚本后...

一次性删除 Mysql 数据库中所有表的数据，保留表结构

mac(linux) 下使用 ssh 免密登录远程 linux 服务器

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签