20.网络爬虫—Scrapy-Redis分布式爬虫-程序员宅基地

网络爬虫—Scrapy-redis详讲

Redis的安装与使用
分布式概念和作用
分布式爬虫
分布式爬虫特点
redis的使用
- - Redis 操作/启动
Redis Desktop Manager下载
特点和架构
安装和使用
- Scrapy-redis 代码部署
- - - spider文件
settings文件

前言：
️️个人简介：以山河作礼。
️️:Python领域新星创作者，CSDN实力新星认证
第一篇文章《1.认识网络爬虫》获得全站热榜第一，python领域热榜第一。
第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八。
第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二。
第十篇文章《10.网络爬虫—MongoDB详讲与实战》全站热榜第八领域热榜第二
第十三篇文章《13.网络爬虫—多进程详讲(实战演示)》全站热榜第十二。
第十四篇文章《14.网络爬虫—selenium详讲》测试领域热榜第二十。
第十六篇文章《16.网络爬虫—字体反爬(实战演示)》全站热榜第二十五。
第十九篇文章《19.网络爬虫—照片管道》全站综合热榜第十二。
《Python网络爬虫》专栏累计发表二十篇文章，上榜八篇。欢迎免费订阅！欢迎大家一起学习，一起成长！！
悲索之人烈焰加身，堕落者不可饶恕。永恒燃烧的羽翼，带我脱离凡间的沉沦。

:文章末尾扫描二维码可以加入粉丝交流群。

Redis的安装与使用

下载地址：

https://github.com/tporadowski/redis/releases

Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择，这里我们下载 Redis-x64-xxx.zip压缩包到 D 盘，解压后，将文件夹重新命名为 redis。

在这里插入图片描述

打开一个 cmd 窗口使用 cd 命令切换目录到 C:\redis 运行：

redis-server.exe redis.windows.conf

如果想方便的话，可以把 redis 的路径加到系统的环境变量里，这样就省得再输路径了，后面的那个 redis.windows.conf 可以省略，如果省略，会启用默认的。输入之后，会显示如下界面：
在这里插入图片描述

分布式概念和作用

分布式：一个业务分拆多个子业务，部署在不同的服务器上; 是一种将任务分布在不同地方的工作方式。

作用：提高安全性和效率

分布式爬虫

分布式爬虫是一种利用多个计算机节点协作进行网页数据抓取的技术。传统的爬虫一般是单机或者集群爬虫，而分布式爬虫将爬虫任务分配到多个节点上进行并行处理，从而提高爬取效率和速度。

默认情况下，我们使用scrapy框架进行爬虫时使用的是单机爬虫，就是说它只能在一台电脑上运行，因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的，其他电脑无法访问另外一台电脑上的内存和内容。
分布式爬虫实现了多台电脑使用一个共同的爬虫程序，它可以同时将爬虫任务部署到多台电脑上运行，这样可以提高爬虫速度，实现分布式爬虫。

分布式爬虫特点

分布式爬虫一般具有以下特点：

分布式协作：通过分布式协作技术，将爬虫任务拆分成多个小任务，分配到不同的节点上进行处理，从而提高爬取效率和速度。
网络通信：多个节点之间需要进行网络通信，以确保任务的协调和数据的传输。
数据一致性：由于分布式爬虫是在多个节点上进行的，因此需要考虑如何确保爬取的数据一致性。
难度复杂：分布式爬虫需要涉及到分布式架构、负载均衡、任务调度等技术，需要具备一定的技术水平和经验。

分布式爬虫的优点主要有以下几点：

更快的爬取速度：分布式爬虫可以利用多个节点并行处理任务，从而提高爬取效率和速度。
更好的可扩展性：分布式爬虫可以通过增加节点数量来扩展系统的容量和性能，具有更好的可扩展性。
更好的稳定性：由于分布式爬虫具有节点冗余机制，系统的稳定性更高，即使某些节点发生故障，也不会影响整个系统的运行。
更好的数据一致性：分布式爬虫可以通过数据一致性机制来确保爬取的数据准确、完整、一致。
更好的资源利用率：分布式爬虫可以利用多个节点的计算能力和存储能力，更好地利用系统资源，降低成本。

当然，分布式爬虫也存在一些挑战和限制，比如节点之间的通信和协作问题，节点故障造成的影响，数据一致性问题等，需要通过技术手段来解决。

redis的使用

修改redis.windows.conf

bind 127.0.0.1 -> bind 0.0.0.0

关闭安全模式，可以远程访问redis

把protected-mode yes改为protected-mode no

Redis 操作/启动

启动服务器
redis-server.exe

启动数据库
启动文件redis-cli.exe

# 伪分布式
bind 127.0.0.1

启动分布式
lpush key:value url
注意：使用时，记得提前在redis中添加。例如：
lpush db:start_urls https://movie.douban.com/top250

Redis Desktop Manager下载

这是一个redis的桌面工具,可以图形化界面操作redis数据库

1，redis需要打开

2，是否已经创建链接，如果已经创建，双击数据库进行链接

3，如果没有就点击下面的connect to redis server ，输入数据库名称例如root，输入host，如127.0.0.1

特点和架构

scrapy_redis是一个基于Redis的Scrapy组件，用于scrapy项目的分布式部署和开发。

特点：分布式爬取

可以启动多个spider对象，互相之间共享有一个redis的request队列。最适合多个域名的广泛内容的爬取。

分布式数据处理：
爬取到的item数据被推送到redis中，这意味着你可以启动尽可能多的item处理程序。

安装和使用

一般通过pip安装Scrapy-redis：

pip install scrapy-redis  # 下载模块

scrapy-redis的使用非常简单，几乎可以并不改变原本scrapy项目的代码，只用做少量设置

Scrapy-redis 代码部署

spider文件

类继承 RedisSpider (原来是继承scrapy.Spider)

from scrapy_redis.spiders import RedisSpider # 让爬虫继承新的爬虫模块

注释strat_urls 设置 redis_key = “db:start_urls” 开启爬虫钥匙

settings文件


# 使用scrapy_redis组件自己的调度器   必须
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 确保所有spider通过redis共享相同的重复过滤。 必须
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 可选 不清理redis队列，允许暂停/恢复抓取。 允许暂定,redis数据不丢失
SCHEDULER_PERSIST = True

# REDIS 主机和端口 必须
REDIS_HOST = '127.0.0.1'  # 写自己电脑的ip地址
REDIS_PORT = 6379

#公共管道 
#如果你希望数据后期统一处理，则可以增加’scrapy_redis.pipelines.RedisPipeline’: 300
#ITEM_PIPELINES  =  {
    
#    'scrapy_redis.pipelines.RedisPipeline':300,    #为了写的redis 
#}

本专栏所有文章是博主学习笔记，仅供学习使用，爬虫只是一种技术，希望学习过的人能正确使用它。
博主也会定时一周三更爬虫相关技术更大家系统学习，如有问题，可以私信我，没有回，那我可能在上课或者睡觉，写作不易，感谢大家的支持！！

本文链接：https://blog.csdn.net/weixin_50804299/article/details/130373008

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

软件测试流程包括哪些内容？测试方法有哪些？_测试过程管理中包含哪些过程-程序员宅基地

文章浏览阅读2.9k次，点赞8次，收藏14次。测试主要做什么？这完全都体现在测试流程中，同时测试流程是面试问题中出现频率最高的，这不仅是因为测试流程很重要，而是在面试过程中这短短的半小时到一个小时的时间，通过测试流程就可以判断出应聘者是否合适，故在测试流程中包含了测试工作的核心内容，例如需求分析，测试用例的设计，测试执行，缺陷等重要的过程。..._测试过程管理中包含哪些过程

政府数字化政务的人工智能与机器学习应用：如何提高政府工作效率-程序员宅基地

文章浏览阅读870次，点赞16次，收藏19次。1.背景介绍政府数字化政务是指政府利用数字技术、互联网、大数据、人工智能等新技术手段，对政府政务进行数字化改革，提高政府工作效率，提升政府服务质量的过程。随着人工智能(AI)和机器学习(ML)技术的快速发展，政府数字化政务中的人工智能与机器学习应用也逐渐成为政府改革的重要内容。政府数字化政务的人工智能与机器学习应用涉及多个领域，包括政策决策、政府服务、公共安全、社会治理等。在这些领域，人工...

ssm+mysql+微信小程序考研刷题平台_mysql刷题软件-程序员宅基地

文章浏览阅读219次，点赞2次，收藏4次。系统主要的用户为用户、管理员，他们的具体权限如下：用户：用户登录后可以对管理员上传的学习视频进行学习。用户可以选择题型进行练习。用户选择小程序提供的考研科目进行相关训练。用户可以进行水平测试，并且查看相关成绩用户可以进行错题集的整理管理员：管理员登录后可管理个人基本信息管理员登录后可管理个人基本信息管理员可以上传、发布考研的相关例题及其分析，并对题型进行管理管理员可以进行查看、搜索考研题目及错题情况。_mysql刷题软件

根据java代码描绘uml类图_Myeclipse8.5下JAVA代码导成UML类图-程序员宅基地

文章浏览阅读1.4k次。myelipse里有UML1和UML2两种方式，UML2功能更强大，但是两者生成过程差别不大1.建立Test工程，如下图，uml包存放uml类图package com.zz.domain;public class User {private int id;private String name;public int getId() {return id;}public void setId(int..._根据以下java代码画出类图

Flume自定义拦截器-程序员宅基地

文章浏览阅读174次。需求：一个topic包含很多个表信息，需要自动根据json字符串中的字段来写入到hive不同的表对应的路径中。发送到Kafka中的数据原本最外层原本没有pkDay和project，只有data和name。因为担心data里面会空值，所以根同事商量，让他们在最外层添加了project和pkDay字段。pkDay字段用于表的自动分区，proejct和name合起来用于自动拼接hive表的名称为 ..._flume拦截器自定义开发 kafka

java同时输入不同类型数据,Java Spring中同时访问多种不同数据库-程序员宅基地

文章浏览阅读380次。原标题：Java Spring中同时访问多种不同数据库多样的工作要求，可以使用不同的工作方法，只要能获得结果，就不会徒劳。开发企业应用时我们常常遇到要同时访问多种不同数据库的问题，有时是必须把数据归档到某种数据仓库中，有时是要把数据变更推送到第三方数据库中。使用Spring框架时，使用单一数据库是非常容易的，但如果要同时访问多个数据库的话事件就变得复杂多了。本文以在Spring框架下开发一个Sp..._根据输入的不同连接不同的数据库