随机变换User-Agent
实现思路
- 单一
User-Agent
:每次请求都使用相同的User-Agent
的话,可以直接在settings.py
文件中配置- 不同
User-Agent
方法一:- 维护一个包含很多
User-Agent
的列表。每次在Request yield
时,使用random
函数随机选一个User-Agent
传入Request header
- 不同
User-Agent
方法二:- 通过
fake-useragent
来随机获取要使用的User-Agent
- 写一个中间件实现每次请求时,给请求头配置一个随机的
User-Agent
- 安装
fake-useragent
:pip install fake-useragent
- 修改
middlewares.py
文件,添加RandomUserAgentMiddlware
# ...
from fake_useragent import UserAgent
# ...
class RandomUserAgentMiddlware(object):
'''
随机更换user-agent
模仿并替换site-package/scrapy/downloadermiddlewares源代码中的
useragent.py中的UserAgentMiddleware类
'''
def __init__(self, crawler):
super(RandomUserAgentMiddlware, self).__init__()
self.ua = UserAgent()
#可读取在settings文件中的配置,来决定开源库ua执行的方法,默认是random,也可是ie、Firefox等等
self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")
# from_crawler():通过参数crawler可以拿到配置的信息,我们的User-Agent在配置文件里,所以我们需要获取到。方法名不可以修改
@classmethod
def from_crawler(cls, crawler):
return cls(crawler)
#更换用户代理逻辑在此方法中
def process_request(self, request, spider):
def get_ua():
'''Gets random UA based on the type setting (random, firefox…)'''
return getattr(self.ua, self.ua_type)
request.headers.setdefault('User-Agent', get_ua())
- 修改
settings.py
文件,开启自定义的Middleware
。同时还要关闭scrapy
自带的代理Middleware
# ...
DOWNLOADER_MIDDLEWARES = {
'demo.middlewares.RandomUserAgentMiddlware': 543,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
# ...
- 这样每次请求的
User-Agent
已经可以随机更换了
设置代理IP
一个可行的自动更换代理的爬虫系统,应该有如下的3个功能。
- 有一个小爬虫
ProxySpider
去各大代理网站爬取免费代理并验证,将可以使用的代理IP
保存到数据库中。- 在
ProxyMiddlerware
的process_request
中,每次从数据库里面随机选择一条代理IP
地址使用。- 周期性验证数据库中的无效代理,及时将其删除。
- 由于免费代理极其容易失效,因此如果有一定开发预算的话,建议购买专业代理机构的代理服务,高速而稳定。
- 设置
ip
代理:request.meta['proxy'] = 'http://xxx.xx.xx.xxx:xx'
- 为了获取代理
ip
,我们可以前往西刺网获取免费的来试用(正式爬取建议买付费的)
- 添加爬取代理
ip
列表的爬虫
# -*- coding: utf-8 -*-
import requests #用requests库来做简单的网络请求
import MySQLdb
from scrapy.selector import Selector
#从scrapy的settings中导入数据库配置
from JobSpider.settings import MYSQL_HOST, MYSQL_USER, MYSQL_PASSWORD, MYSQL_DBNAME
conn = MySQLdb.connect(host=MYSQL_HOST, user=MYSQL_USER, passwd=MYSQL_PASSWORD, db=MYSQL_DBNAME, charset='utf8')
cursor = conn.cursor()
def clear_table():
# 清空表内容
cursor.execute('truncate table proxy_ip')
conn.commit()
def crawl_xici_ip(pages):
'''
爬取一定页数上的所有代理ip,每爬完一页,就存入数据库
:return:
'''
clear_table()
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0"}
for i in range(1, pages):
response = requests.get(url='http://www.xicidaili.com/nn/{0}'.format(i), headers=headers)
all_trs = Selector(text=response.text).css('#ip_list tr')
ip_list = []
for tr in all_trs[1:]:
ip = tr.xpath('td[2]/text()').extract_first().encode('utf8')
port = tr.xpath('td[3]/text()').extract_first().encode('utf8')
ip_type = tr.xpath('td[6]/text()').extract_first().encode('utf8')
ip_speed = tr.xpath('td[7]/div/@title').extract_first()
if ip_speed:
ip_speed = float(ip_speed.split(u'秒')[0])
ip_alive = tr.xpath('td[9]/text()').extract_first().encode('utf8')
ip_list.append((ip, port, ip_type, ip_speed, ip_alive))
# 每页提取完后就存入数据库
for ip_info in ip_list:
cursor.execute(
"insert proxy_ip(ip, port, type, speed, alive) VALUES('{0}', '{1}', '{2}', {3}, '{4}')".format(
ip_info[0], ip_info[1], ip_info[2], ip_info[3], ip_info[4]
)
)
conn.commit()
# ip的管理类
class IPUtil(object):
# noinspection SqlDialectInspection
def get_random_ip(self):
# 从数据库中随机获取一个可用的ip
random_sql = """
SELECT ip, port, type FROM proxy_ip
ORDER BY RAND()
LIMIT 1
"""
result = cursor.execute(random_sql)
for ip_info in cursor.fetchall():
ip = ip_info[0]
port = ip_info[1]
ip_type = ip_info[2]
judge_re = self.judge_ip(ip, port, ip_type)
if judge_re:
return "{2}://{0}:{1}".format(ip, port, str(ip_type).lower())
else:
return self.get_random_ip()
def judge_ip(self, ip, port, ip_type):
# 判断ip是否可用,如果通过代理ip访问百度,返回code200则说明可用
# 若不可用则从数据库中删除
print 'begin judging ---->', ip, port, ip_type
http_url = "https://www.baidu.com"
proxy_url = "{2}://{0}:{1}".format(ip, port, str(ip_type).lower())
try:
proxy_dict = {
"http": proxy_url,
}
response = requests.get(http_url, proxies=proxy_dict)
except Exception as e:
print "invalid ip and port,cannot connect baidu"
self.delete_ip(ip)
return False
else:
code = response.status_code
if code >= 200 and code < 300:
print "effective ip"
return True
else:
print "invalid ip and port,code is " + code
self.delete_ip(ip)
return False
# noinspection SqlDialectInspection
def delete_ip(self, ip):
# 从数据库中删除无效的ip
delete_sql = """
delete from proxy_ip where ip='{0}'
""".format(ip)
cursor.execute(delete_sql)
conn.commit()
return True
if __name__ == '__main__':
crawl_xici_ip(pages=3)
# ip = IPUtil()
# for i in range(20):
# print ip.get_random_ip()
- 修改
middlewares.py
文件,设置随机代理
from tools.crawl_ip import IPUtil
class RandomProxyMiddleware(object):
# 动态设置ip代理
def process_request(self, request, spider):
ip_util = IPUtil()
proxy_ip = ip_util.get_random_ip()
print 'using ip proxy:', proxy_ip
request.meta["proxy"] = proxy_ip
- 修改
settings.py
文件,使用Middleware
DOWNLOADER_MIDDLEWARES = {
'demo.middlewares.RandomProxyMiddleware':542,
'demo.middlewares.RandomUserAgentMiddlware': 543,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
开发Cookies中间件
思路
- 对于需要登录的网站,可以使用
Cookies
来保持登录状态- 单独写一个小程序,用
Selenium
持续不断地用不同的账号登录网站,就可以得到很多不同的Cookies
- 把得到的
Cookies
放在Redis
里面- 当
Scrapy
爬虫请求网页时,可以从Redis
中读取Cookies
并给爬虫换上。这样爬虫就可以一直保持登录状态
- 新建一个
helper.py
文件,用于登录页面,拿到Cookies
import time
import json
import redis
from selenium import webdriver
client = redis.StrictRedis()
driver = webdriver.Chrome()
driver.get('http://exercise.kingname.info/exercise_login_success')
driver.find_element_by_xpath('//input[@name="username"]').send_keys('kingname')
driver.find_element_by_xpath('//input[@name="password"]').send_keys('genius')
driver.find_element_by_xpath('//input[@name="rememberme"]').click()
driver.find_element_by_xpath('//button[@class="login"]').click()
time.sleep(2)
cookies = driver.get_cookies()
client.lpush('cookies', json.dumps(cookies))
driver.quit()
- 修改
middlewares.py
,写一个中间件,从Redis
中读取Cookies
,并把这个Cookies
给Scrapy
使用
import json
import redis
class LoginMiddleware(object):
def __init__(self):
self.client = redis.StrictRedis()
def process_request(self, request, spider):
if spider.name == 'loginSpider':
cookies = json.loads(self.client.lpop('cookies').decode())
request.cookies = cookies
发表评论