Nginx服务器访客日志UserAgent参照表

网络上存在各种各样的爬虫与蜘蛛,有的是对网站有帮助的,譬如说:百度、谷歌,但是也有一些纯粹是垃圾爬虫,不但本身对网站毫无帮助,还大幅损耗服务器资源,所以我们可以通过UserAgent信息来屏蔽垃圾爬虫,本文注解并汇总了目前常见的爬虫信息,方便大家参考并选择性的屏蔽。

搜索引擎

此类爬虫大多不会给网站带来太多危害,如果服务器资源允许的话,可以不用屏蔽!

yandex 俄罗斯的一个很著名的搜索引擎,如果不针对国外用户的话,可以考虑屏蔽。

内容采集

此类爬虫大多为第三方订阅平台的内容采集,如果你的网站在第三方RSS平台提供订阅,请不要屏蔽!

FeedDemon RSS订阅采集

Feedly RSS订阅采集

数据采集

此类爬虫对网站本身帮助不大,相反某些暴力蜘蛛会短时间大量抓取页面。给服务器资源造成大量损耗,建议屏蔽!

ZoominfoBot zoominfo是一个北美为主的数据网站,用来搜寻北美公司曾经出现在网页上的邮箱,所以是一个数据采集爬虫。

MJ12bot 以我观察到的这个蜘蛛MJ12bot为例,我发现每次它的蜘蛛来爬取我的网站的时候,都是在短时间内(30分钟)非常大量的爬取,量大到整个系统资源都被吃光,CPU严重负荷不了,网站随时有挂点的可能,这种我称之为暴力蜘蛛,暴力蜘蛛对你的访客流量通常没有什么贡献,却吃掉你的系统资源以及网路频宽,害处远大于好处,遇到这种暴力蜘蛛,最好的方式就是拒绝它的访问。

SemrushBot 提供SEO数据的平台,包括关键字研究和反向链接。

AhrefsBot 无用爬虫。

Java 内容采集

Jullo 内容采集

UniversalFeedParser 内容采集

Swiftbot 无用爬虫

Microsoft URL Control 扫描

oBot 无用爬虫

Python-urllib 内容采集

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

网站攻击

此类爬虫为针对网站的扫描或爆破,建议屏蔽!

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy sql注入

ApacheBench cc攻击器

ZmEu 漏洞扫描

WinHttp 采集cc攻击

HttpClient tcp 攻击

jaunty wordpress爆破扫描器

Indy Library 扫描