屏蔽恶意垃圾蜘蛛爬虫加速网站访问保护网站不被恶意刷流量

对于放在国外的VPS上面的网站，经常会被一些网络恶意垃圾蜘蛛或网络爬虫骚扰，导致自己的流量整天被刷，有的更夸张的是每天被几十个垃圾爬虫和蜘蛛不断刷自己流量，直接导致网站宕机都有可能出现。下面虾皮路就分享一下屏蔽恶意垃圾蜘蛛爬虫从而加速网站访问，保护网站不被恶意刷流量。

一、常见的搜索引擎爬虫

1、Googlebot

Googlebot 是谷歌的网络爬虫，其UA标识为 “(compatible; Googlebot /2.1; +http://www.google.com/bot.html)”。对大部分网站，Googlebot应该是爬取最勤快的爬虫，能给优质博客带来大量流量。

除了爬取网页的Googlebot，常见的还有图片爬虫Googlebot-Image、移动广告爬虫Mediapartners-Google等。

2、Baiduspider

Baiduspider 是百度的网页爬虫，中文站很常见。其UA标识为“(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”。

除了网页爬虫，手机百度爬虫Baiduboxapp、渲染抓取Baiduspider-render等。

3、bingbot

bingbot 是微软 bing搜索的爬虫，其UA标识为“(compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”。

自微软推广bing搜索品牌后，微软原来的爬虫MSNBot越来越少见到了。

4、360Spider

360Spider 是 360搜索的爬虫，其UA标识为“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/5 37.36; 360Spider”。

目前360搜索份额较少，这个爬虫不是很常见。

5、Sogou web spider

Sogou web spider 是搜狗搜索的网页爬虫，其UA标识为“Sogou web spider/4.0(+http://www.sogou.com/docs/help/ webmasters.htm#07)”。背靠腾讯，搜狗目前市场份额在上升，因此其网络爬虫比较勤快，经常能看到。

访问日志搜索Sogou，除了Sogou web spider，还常见SogouMSE、SogouMobileBrowser。这是搜狗手机浏览器的UA标识，不是爬虫。

6、YisouSpider

YisouSpider 是神马搜索的爬虫，UA标识是“Mozilla/5.0 (Windows NT 6.1; Win64 ; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。

神马成立初期太疯狂抓取网页导致一些小网站崩溃而惹的天怒人怨。随着市场份额提升和数据完善，目前YisouSpider还算克制，不再疯狂抓取。

从名字上看，神马搜索的发音类似于宜搜，但和专注小说搜索的“宜搜(http://easou.com/)”不是同一家公司。神马搜索是UC合并到阿里后推出的移动搜索引擎，而宜搜在2G wap时代就已经名声在外。

7、YandexBot

YandexBot 是俄罗斯最大搜索引擎和互联网巨头 Yandex 的网页爬虫，其UA标识是“(compatible; YandexBot/3.0; +http://yandex.com/bots)”。

Yandex提供中文界面和中文搜索，也是少数目前能直接打开的国外搜索引擎。随着越来越多中国人知道Yandex，YandexBot在中文网站日志里越来越常见。

8、DuckDuckGo

DuckDuckGo 是 DuckDuckGo 的网页爬虫，其UA标识是“Mozilla/5.0 (Linux; Android 10) AppleWebK it/537.36 (KHTML, like Gecko) Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。

DuckDuckGo 主打隐私、安全、不监控用户记录，界面简洁，也提供中文搜索界面。

除了上述搜索引擎爬虫，WordPress等提供feed订阅的网站还常见newblur和feedly的访问记录。这两个不是爬虫，而是订阅软件，也能给网站带来流量。

二、常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量，也有许多爬虫除了增加服务器负担，对网站没任何好处，应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫，其抓取网页给需要做SEO的人用，不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用，不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫，抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫，这个爬虫连网站都没有，UA只显示一个邮箱：”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫，竟然遵循robots协议，算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛，因此它爬网站主要是分析链接，并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛，作用是收集网站上面的链接，对我们来说并没有用处。遵循robots协议。

三、屏蔽/禁止恶意垃圾蜘蛛爬虫方法

屏蔽垃圾爬虫主要从两方面入手：1. robots.txt禁止；2. web层面通过UA禁止。

1、通过robots.txt禁止

对于遵循robots协议的蜘蛛，可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下，将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下，也可以根据自己需要进行增减。

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /

2、web层面通过UA禁止

对于不遵循robots协议的爬虫，可以在web软件层面通过UA屏蔽。下面以 Nginx 为例介绍，操作为：在网站配置的server段内，新增类似如下指令：

server {
   ... 一些网站配置
   # 屏蔽curl/httpclient抓取
   if ($http_user_agent ~* curl|httpclient) {
     return 403;
   }
   # 屏蔽MauiBot等爬虫
   if ($http_user_agent ~* MauiBot|AhrefsBot|DotBot) {
     return 403;
   }
   ... 其他配置

至于一共有哪些搜索引擎爬虫或者蜘蛛，国外也进行了收集，如下

if（$ http_user_agent〜*（360Spider | 80legs.com | Abonti | AcoonBot | Acunetix | adbeat_bot | AddThis.com | adixxbot | ADmantX | AhrefsBot | AngloINFO |羚羊| Applebot | BaiduSpider | BeetleBot | billigerbot | binlar | idbot | BoardReader | Bolt \ 0 | BOT \ for \ JCE | Bot \ mailto \：craftbot @ yahoo \ .com | casper | CazoodleBot | CCBot | checkprivacy | ChinaClaw | chromeframe | Clerkbot | Cliqzbot | clshttp | CommonCrawler | comodo | CPython | crawler4j | Crawlera | CRAZYWEBCRAWLER | Curious | Curl | Custo | CWS_proxy | Default \ Browser \ 0 | diavol | DigExt | Digincore | DIIbot | discobot | DISCo | DoCoMo | DotBot | Download \ Demon | DTS。代理| EasouSpider | eCatch | ecxi | EirGrabber | Elmer | EmailCollector | EmailSiphon | EmailWolf | Exabot | ExaleadCloudView | ExpertSearchSpider | ExpertSearch | Express \ WebPictures | ExtractorPro | Extract | EyeNetIE | Ezooms | F2S | FastSeek | Bet | bot Flamingo_SearchEngine | FlappyBot | FlashGet | flicky | Flipboard | g00g1e | Genieo | genieo | GetRight | GetWeb \！| GigablastOpenSource | GozaikBot | Go \！Zilla | Go \ -Ahead \ -Got \ -It | GrabNet | Grafula | GrapeshotCrawler | GTB5 | GT \：\：WWW | Guzzle | harvest | heritrix | HMView | HomePageBot | HTTP \：\：Lite | HTTrack | HubSpot | ia_archiver | icarus6 | IDBot | id \ -search | IlseBot | Image \ Stripper | Image \ Sucker | Indigonet | Indy \ Library | integromedb | InterGET | InternetSeer \ .com | Internet \ Ninja | IRLbot | ISC \ Systems \ iRc \ Search \ 2 \。1 | jakarta | Java | JetCar | JobdiggerSpider | JOC \ Web \ Spider | Jooblebot |神奈川县| KINGSpider | kmccrew | larbin | LeechFTP | libwww | Lingewoud | LinkChecker | linkdexbot | LinksCrawler | LinksManager \ .com_bot | linkwalker | LinqiaRSSBlt | x || LubbersBot | lwp \ -trivial | Mail.RU_Bot | masscan | Mass \下载器| maverick | Maxthon $ | Mediatoolkitbot | MegaIndex | MegaIndex | megaindex | MFC_Tear_Sample | Microsoft \ URL \ Control | microsoft \ .url | MIDown \工具| miner | Missigua \ Locator | Mister \ PiX | mj12bot | Mozilla。* Indy | Mozilla。* NEWT | MSFrontPage | msnbot | Navroad | NearSite | NetAnts | netEstate | NetSpider | NetZIP | Net \ Vampire | NextGenSearchBot | nutch | Octopus | Offline \ Explorer | Offline \ Navigator | OpenindexSpider | OpenWebSpider | OrangeBot | Owlin | PageGrabber | PagesInventory | panopta | panscient \ .com | Papa \ Foto | pavuk | pcBrowser | PECL \：\ :: HTTP | PeoplePal | Photon | PHPCrawl | planetwork | PleaseCrawl | PNAMAIN。EXE | PodcastPartyBot |最出色的|代理| psbot | purebot | pycurl | QuerySeekerSpider | R6_CommentReader | R6_FeedFetcher | RealDownload | ReGet | Riddler | Rippers \ 0 | rogerbot | RSSingBot | rv \：1.9.1 | RyzeCrawler | SafeSearch | Screaming | SeaMonkey $ | search.goo.ne.jp | SearchmetricsBot | search_robot | SemrushBot | Semrush | SentiBot | SEOcks | SeznamBot | ShowyouBot | SightupBot | SISTRIX | sitecheck \ .internetseer \ .com | siteexplorer.info | SiteSnagger | sky Slackbot | Slurp | SmartDownload | Snoopy | Sogou | Sosospider | spaumbot | Steeler |吸盘| SuperBot | Superfeedr | SuperHTTP | SurdotlyBot | Surfbot | tAkeOut | Teleport \ Pro | TinEye-bot | TinEye | Toata \ dragostea \ mea | mea \ pentru \ Toplistbot | trendictionbot | TurnitinBot | turnit | Twitterbot | URI \：\：Fetch | urllib | Vagabondo | Vagabondo | vikspider | VoidEYE | VoilaBot | WBSearchBot | webalta | WebAuto | WebBandit | WebCollage | WebCopier | WebFetch | WebGo \ IS | WebLeacher | WebReaper | WebSauger | Website \ eXtractor | Web站点| Quester | WebStr WebZIP | Web \图像\收集器| Web \ Sucker | Wells \ Search \ II | WEP \ Search | WeSEE | Wget | Widow | WinInet | woobot | woopingbot | worldwebheritage.org | Wotbox | WPScan | WWWOFFLE | WWW \ -Mechanize | Xaldon \ WebSpider | XoviBot | yacybot | Yahoo | YandexBot | Yandex | YisouSpider | zermelo | Zeus | zh-CN | ZmEu | ZumBot | ZyBorg））{org | Wotbox | WPScan | WWWOFFLE | WWW \ -Mechanize | Xaldon \ WebSpider | XoviBot | yacybot | Yahoo | YandexBot | Yandex | YisouSpider | zermelo | Zeus | zh-CN | ZmEu | ZumBot | ZyBorg））{org | Wotbox | WPScan | WWWOFFLE | WWW \ -Mechanize | Xaldon \ WebSpider | XoviBot | yacybot | Yahoo | YandexBot | Yandex | YisouSpider | zermelo | Zeus | zh-CN | ZmEu | ZumBot | ZyBorg））{
    返回410;
}

里面基本涵盖了所有的搜索引擎爬虫，有好的也有恶意的。自己可以根据需要进行增减。

屏蔽恶意垃圾蜘蛛爬虫加速网站访问保护网站不被恶意刷流量

一、常见的搜索引擎爬虫

1、Googlebot

2、Baiduspider

3、bingbot

4、360Spider

5、Sogou web spider

6、YisouSpider

7、YandexBot

8、DuckDuckGo

二、常见的网络恶意垃圾爬虫蜘蛛

1、MJ12Bot

2、AhrefsBot

3、SEMrushBot

4、DotBot

5、MauiBot

6、MegaIndex.ru

7、BLEXBot

三、屏蔽/禁止恶意垃圾蜘蛛爬虫方法

1、通过robots.txt禁止

2、web层面通过UA禁止

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

相关推荐

评论抢沙发

评论前必须登录！

注册

加入会员

一、常见的搜索引擎爬虫

1、Googlebot

2、Baiduspider

3、bingbot

4、360Spider

5、Sogou web spider

6、YisouSpider

7、YandexBot

8、DuckDuckGo

二、常见的网络恶意垃圾爬虫蜘蛛

1、MJ12Bot

2、AhrefsBot

3、SEMrushBot

4、DotBot

5、MauiBot

6、MegaIndex.ru

7、BLEXBot

三、屏蔽/禁止恶意垃圾蜘蛛爬虫方法

1、通过robots.txt禁止

2、web层面通过UA禁止

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

相关推荐

评论 抢沙发

评论前必须登录！

登录

注册

加入会员

评论抢沙发