防爬虫君子协定 Robots.txt 文件
1.什么是robots.txt ?
robots.txt是一个位于网站根目录的文本文件,用于指导搜索引擎爬虫如何访问和抓取网站内容。它遵循特定的语法规则,是网站与爬虫通信的重要工具。当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.t xt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。
为什么用使用robots.txt
一个系统能够被百度等主流搜索引擎抓取,能够给网站带来流量,但是被抓取做分析的引擎抓到,不会带来任何好处,还影响带宽,因此需要做出限制。
2.robots.txt语法概述
①基本语法规则
每行一条指令:指令由 字段名: 值 组成,区分大小写(建议统一用小写)。
注释:以 # 开头的行是注释,爬虫会忽略。
必须放置在根目录:例如 https://example.com/robots.txt。
字符编码:建议使用 UTF-8 编码。
robots.t