买了两个腾讯云的学生机,一直放着没什么用。以前将 jupyter 配置在服务器上,感觉还不错。但这也太浪费服务器了。于是就像搭建代理供爬虫使用,遇到一些坑,记录一下。 第一步 (说明一下,这里无法使用 vi,因为是内存中的文件) # 确认服务器端ip_forward转发开启 echo 1 > /proc/sys/ ..

centos 服务器搭建代理

买了两个腾讯云的学生机,一直放着没什么用。以前将 jupyter 配置在服务器上,感觉还不错。但这也太浪费服务器了。于是就像搭建代理供爬虫使用,遇到一些坑,记录一下。

第一步
(说明一下,这里无法使用 vi,因为是内存中的文件)

# 确认服务器端ip_forward转发开启
echo 1 > /proc/sys/net/ipv4/ip_forward
# 查看是否设置成功, 如果修改成功会有net.ipv4.ip_forward = 1
sysctl -a |grep -w ip_forward

第二步(安装 squid)

yum install squid

第三步(修改配置文件)
vim /etc/squid/squid.conf

#允许的客户端ip
acl allcomputers src all
#配置用户名密码,后面会生成passwords文件
auth_param basic program /usr/lib64/squid/basic_ncsa_auth /etc/squid/passwords
acl authenticated proxy_auth REQUIRED
http_access allow authenticated

这里说明一下 /usr/lib64/squid/basic_ncsa_auth /etc/squid/passwords 这两个是文件,前面的安装了 squid 就已经存在,后面的等下我们自己生成。

找到 http_access deny all 并注释掉

#http_access deny all

最好修改一下默认的 3128 端口

http_port 3601

用户名密码认证
使用的是 htpasswd 命令,我们先使用 yum install httpd-tools, 就会有这个命令工具了。

sudo htpasswd -bc  /etc/squid/passwords 用户名 密码
sudo chmod o+r /etc/squid/passwords

命令就不解释了,可以百度一下 htpasswd 命令使用。

检查 squid 配置是否正确(如果有错误,会显示错误内容,按相应的改就行,不会可以先翻译一下,或者直接百度)

squid -z

开启 squid 服务

systemctl start squid.service

可以查看一下 squid 的状态

systemctl status squid.service

接着就是一些细节问题,比如关闭防火墙

systemctl stop firewalld

如果也是腾讯云的服务器,需要开放一下相应端口 (具体请百度)。

另外,如果不想自己配置配置文件,而且你的也是 centos 系统,可以直接下载我的配置文件,替换就行 (其他系统的会有一点不同).
配置文件:https://www.lanzous.com/i45a1ch

开启端口后,可以先用端口扫描,查看端口是否被打开。如果端口没打开,可能是防火墙没关闭,也可能是腾讯云未成功开放端口。
Python 代码 (也可以百度搜在线扫描工具)

squid 的日志文件:/var/log/squid/access.log

import telnetlib
 
def get_ip_status(ip,port):
    server = telnetlib.Telnet()      # 创建一个Telnet对象
    try:
        server.open(ip,port)         # 利用Telnet对象的open方法进行tcp链接
        print('{0} port {1} is open'.format(ip, port))
    except Exception:
        print('{0} port {1} is not open'.format(ip,port))
    finally:
        server.close()
 
if __name__ == '__main__':
    host = 'www.baidu.com' # 要扫描的主机
    get_ip_status(host, 3601)

我们在使用 requests 测试代理是否有效,代码就不发了,这是爬虫的基本功。

  • 代理
    38 引用 • 96 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    63 引用 • 161 回帖
回帖   
请输入回帖内容...