爬虫Robots协议-程序员宅基地

技术标签: 爬虫  Python爬虫  搜索引擎  

Robots协议是互联网爬虫的一项公认的道德规范,它的全称是“网络爬虫排除标准”(Robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的,哪些不可以。

如何查看网站的robots协议呢,很简单,在网站的域名后加上/robots.txt就可以了。

如百度https://www.baidu.com/robots.txt

User-agent: Baiduspider     #  百度爬虫
Disallow: /baidu         #disallow禁止访问,allow允许访问
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zhangke0426/article/details/123094877

智能推荐

Vue组件(三)-内置组件component、transition、 transition-group、keep-alive、slot_小程序类似transtion-group组件-程序员宅基地

文章浏览阅读1.1k次。Vue 的内置组件component组件动态绑定组件,根据数据不同更换不同的组件,component通过属性is的值可以渲染不同的组件。<component :is="currentTabComponent"></component>transition组件为组件的载入和切换提供动画效果transition-group组件作为多个元素/组件的过渡效果keep-alive组件能在组件切换过程中将状态保留在内存中,防止重复渲染DOM。包裹动态组件时,会缓存不活动的组件_小程序类似transtion-group组件

STM32与陀螺仪、加速度计传感器的数据融合与姿态估计_加速度计和陀螺仪数据融合-程序员宅基地

文章浏览阅读626次,点赞5次,收藏6次。下面是一个简单的示例代码,演示了如何在STM32上实现对陀螺仪和加速度计数据的读取和融合,以实现姿态估计功能。本文将介绍如何将陀螺仪和加速度计传感器与STM32微控制器结合使用,通过数据融合算法实现对物体姿态的估计。提供稳定的电源以满足STM32、陀螺仪和加速度计的工作需求,建议采用稳压电源或者电池供电。将陀螺仪和加速度计的引脚连接到STM32的对应引脚,通常通过I2C或SPI接口进行通信。通过合理的硬件设计和软件编程,可以针对具体的应用和需求进行姿态估计算法的优化和定制。_加速度计和陀螺仪数据融合

git 命令-程序员宅基地

文章浏览阅读60次。为什么80%的码农都做不了架构师?>>> ...

二进制码、格雷码、独热码的区别_独热码和格雷码的区别-程序员宅基地

文章浏览阅读1.2w次,点赞28次,收藏146次。格雷码 在一组数的编码中,若任意两个相邻的代码只有一位二进制数不同,则称这种编码为格雷码(Gray Code),另外由于最大数与最小数之间也仅一位数不同,即“首尾相连”,因此又称循环码或反射码。格雷码(Gray Code)又称Grey Code、葛莱码、格莱码、戈莱码、循环码、反射二进制码、最小差错码等。格雷码有多种编码形式为什么要使用格雷码?格雷码是一种具有反射特性和循环特性的单步自补码,其循环和单步特性消除了随机取数时出现重大错误的可能,其反射和自补特性使得对其进..._独热码和格雷码的区别

网络分流器|高速骨干网流量采集与分流实现-程序员宅基地

文章浏览阅读202次。网络分流器|高速骨干网流量采集与分流实现方案1 流量采集|网络分流器所谓流量采集,就是将网络流量通过物理层、数据链路层的信号解析和解帧,实现IP原始报文的获取。骨干网流量采集系统是一种对骨干网进行流量获取并分析的系统,主要应用于政府网络管理、运行商广告推送、运行商计费取证服务、运行商信令监控服务、园区网审计、公安网监、大数据分析等领域。2 高速网络流量采集系统|网络分..._流上报 分流器 doc

ESP32 (UART 接收发送)-串口之接收发送通讯(4)_esp32接收发送16进制指令-程序员宅基地

文章浏览阅读9.7k次,点赞8次,收藏54次。提示:本博客作为学习笔记,有错误的地方希望指正文章目录一、ESP32串口介绍二、硬件设计三、实现代码四、串口实验演示结果五、ESP32串口函数API5.1、uart_types.h文件中的内容的API5.2、在uart.h文件中的内容的API一、ESP32串口介绍  UART 是一种以字符为导向的通用数据链,可以实现设备间的通信。异步传输的意思是不需要在发送数据上添加时钟信息。这也要求发送端和接收端的速率、停止位、奇偶校验位等都要相同,通信才能成功。  一个典型的 UART 帧开始于一个起始位,紧接_esp32接收发送16进制指令

随便推点

小组查经分享《创世记》--概述-程序员宅基地

文章浏览阅读5.6k次。我们知道整本圣经分为新约和旧约,从这个划分上可以看出,圣经其实可以用一个字来概括,即“约”字。什么是约呢?约就是神人关系的规范。所以我们首先从约的角度来看看创世纪的信息。 一、亚当之约(行为之约) 创世纪第一章记载了神六天的创造之工,第二章就让我们看到人被造的详细过程,并亚..._亚当之约的内容是什么

java 迭代器_如何在Java中使用迭代器Iterator? - Break易站-程序员宅基地

文章浏览阅读280次。Java 集合框架'Iterator'是一个属于集合框架的接口。它允许我们遍历集合,访问数据元素并删除集合的数据元素。java.util包具有公共接口Iterator并包含三个方法:boolean hasNext():如果Iterator有更多要迭代的元素,则返回true。Object next():它返回集合中的下一个元素,直到hasNext()方法返回true。如果没有下一个元素,则此方法抛..._while (iterator 用法 java

js-01-程序员宅基地

文章浏览阅读103次。<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title> <script type="text/javascript"> /** * 局部变量,函数内生效;函数外失效!(非要实现,研究闭包!) */ function aa.

程序员面试被要求徒手写代码?你与顶级程序员差别就在这!_自从自己入职稳定以后,就一直在整理自己这一段时间自己的经历,想要写下来。今天是-程序员宅基地

文章浏览阅读346次。在面试中,你被要手写代码,原本自信心爆棚的你突然间提笔忘字。在一张纸上反复涂涂画画,最后勉强的写出了一个功能。结果却漏洞百出。面试过程相当不顺利,丢下笔,敷衍的结束了这场面试,回去对周围的朋友苦涩地说:这都什么时代了,还要求手写代码?这家公司落后了。然而,这就是你与顶级程序员最根本的差距。那么顶级程序员们手写代码都特别厉害吗?随便一动笔就是行云流水,一泻千里?不不不!也许,他们根本就没手写过代..._自从自己入职稳定以后,就一直在整理自己这一段时间自己的经历,想要写下来。今天是

【c++】rand()随机函数的应用(二)——舒尔特方格数字的生成_山东大学c++舒尔特方格代码-程序员宅基地

文章浏览阅读800次。本例提出了一种新的方法实现不同维数舒尔特方格的生成方法,需要用到rand()、srand()函数,在算法上采用动态取模方法。_山东大学c++舒尔特方格代码

android输入法好用,安卓手机输入法哪个最好用?-程序员宅基地

文章浏览阅读2.5k次。纵观目前的安卓手机输入法,已经获得大多数用户认可的有以下四种:搜狗输入法、百度输入法、QQ输入法,以及讯飞语音输入法。但是这四种安卓手机输入法哪个最好用?谁的联想最完美,稳定性和兼容性最强?今天,凌少就通过四种输入法的详细对比介绍,来告诉大家,到底安卓手机输入法哪个最好用。评测手机:HTC HD2手机系统:Andriod 2.2评测对象:搜狗输入法、百度输入法、QQ输入法,以及讯飞口讯语音输入法手..._安卓手机好用的输入法