屏蔽恶意垃圾蜘蛛爬虫加速网站访问 保护网站不被恶意刷流量

屏蔽恶意垃圾蜘蛛爬虫加速网站访问 保护网站不被恶意刷流量插图

对于放在国外的VPS上面的网站,经常会被一些网络恶意垃圾蜘蛛或网络爬虫骚扰,导致自己的流量整天被刷,有的更夸张的是每天被几十个垃圾爬虫和蜘蛛不断刷自己流量,直接导致网站宕机都有可能出现。下面虾皮路就分享一下屏蔽恶意垃圾蜘蛛爬虫从而加速网站访问,保护网站不被恶意刷流量。

一、常见的搜索引擎爬虫

1、Googlebot

Googlebot 是 谷歌 的网络爬虫,其UA标识为 “(compatible; Googlebot /2.1; +http://www.google.com/bot.html)”。对大部分网站,Googlebot应该是爬取最勤快的爬虫,能给优质博客带来大量流量。

除了爬取网页的Googlebot,常见的还有图片爬虫Googlebot-Image、移动广告爬虫Mediapartners-Google等。

2、Baiduspider

Baiduspider 是 百度 的网页爬虫,中文站很常见。其UA标识为“(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”。

除了网页爬虫,手机百度爬虫Baiduboxapp、渲染抓取Baiduspider-render等。

3、bingbot

bingbot 是微软 bing搜索 的爬虫,其UA标识为“(compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”。

自微软推广bing搜索品牌后,微软原来的爬虫MSNBot越来越少见到了。

4、360Spider

360Spider 是 360搜索 的爬虫,其UA标识为“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/5 37.36; 360Spider”。

目前360搜索份额较少,这个爬虫不是很常见。

5、Sogou web spider

Sogou web spider 是 搜狗搜索 的网页爬虫,其UA标识为“Sogou web spider/4.0(+http://www.sogou.com/docs/help/ webmasters.htm#07)”。背靠腾讯,搜狗目前市场份额在上升,因此其网络爬虫比较勤快,经常能看到。

访问日志搜索Sogou,除了Sogou web spider,还常见SogouMSE、SogouMobileBrowser。这是搜狗手机浏览器的UA标识,不是爬虫。

6、YisouSpider

YisouSpider 是 神马搜索 的爬虫,UA标识是“Mozilla/5.0 (Windows NT 6.1; Win64 ; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。

神马成立初期太疯狂抓取网页导致一些小网站崩溃而惹的天怒人怨。随着市场份额提升和数据完善,目前YisouSpider还算克制,不再疯狂抓取。

从名字上看,神马搜索的发音类似于宜搜,但和专注小说搜索的“宜搜(http://easou.com/)”不是同一家公司。神马搜索是UC合并到阿里后推出的移动搜索引擎,而宜搜在2G wap时代就已经名声在外。

7、YandexBot

YandexBot 是俄罗斯最大搜索引擎和互联网巨头 Yandex 的网页爬虫,其UA标识是“(compatible; YandexBot/3.0; +http://yandex.com/bots)”。

Yandex提供中文界面和中文搜索,也是少数目前能直接打开的国外搜索引擎。随着越来越多中国人知道Yandex,YandexBot在中文网站日志里越来越常见。

8、DuckDuckGo

DuckDuckGo 是 DuckDuckGo 的网页爬虫,其UA标识是“Mozilla/5.0 (Linux; Android 10) AppleWebK it/537.36 (KHTML, like Gecko) Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。

DuckDuckGo 主打隐私、安全、不监控用户记录,界面简洁,也提供中文搜索界面。

除了上述搜索引擎爬虫,WordPress等提供feed订阅的网站还常见newblur和feedly的访问记录。这两个不是爬虫,而是订阅软件,也能给网站带来流量。

二、常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

三、屏蔽/禁止恶意垃圾蜘蛛爬虫方法

屏蔽垃圾爬虫主要从两方面入手:1. robots.txt禁止;2. web层面通过UA禁止。

1、通过robots.txt禁止

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下,也可以根据自己需要进行增减。

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /

2、web层面通过UA禁止

对于不遵循robots协议的爬虫,可以在web软件层面通过UA屏蔽。下面以 Nginx 为例介绍,操作为:在网站配置的server段内,新增类似如下指令:

server {
   ... 一些网站配置
   # 屏蔽curl/httpclient抓取
   if ($http_user_agent ~* curl|httpclient) {
     return 403;
   }
   # 屏蔽MauiBot等爬虫
   if ($http_user_agent ~* MauiBot|AhrefsBot|DotBot) {
     return 403;
   }
   ... 其他配置

至于一共有哪些搜索引擎爬虫或者蜘蛛,国外也进行了收集,如下

if($ http_user_agent〜*(360Spider | 80legs.com | Abonti | AcoonBot | Acunetix | adbeat_bot | AddThis.com | adixxbot | ADmantX | AhrefsBot | AngloINFO |羚羊| Applebot | BaiduSpider | BeetleBot | billigerbot | binlar | idbot | BoardReader | Bolt \ 0 | BOT \ for \ JCE | Bot \ mailto \:craftbot @ yahoo \ .com | cas​​per | CazoodleBot | CCBot | checkprivacy | ChinaClaw | chromeframe | Clerkbot | Cliqzbot | clshttp | CommonCrawler | comodo | CPython | crawler4j | Crawlera | CRAZYWEBCRAWLER | Curious | Curl | Custo | CWS_proxy | Default \ Browser \ 0 | diavol | DigExt | Digincore | DIIbot | discobot | DISCo | DoCoMo | DotBot | Download \ Demon | DTS。代理| EasouSpider | eCatch | ecxi | EirGrabber | Elmer | EmailCollector | EmailSiphon | EmailWolf | Exabot | ExaleadCloudView | ExpertSearchSpider | ExpertSearch | Express \ WebPictures | ExtractorPro | Extract | EyeNetIE | Ezooms | F2S | FastSeek | Bet | bot Flamingo_SearchEngine | FlappyBot | FlashGet | flicky | Flipboard | g00g1e | Genieo | genieo | GetRight | GetWeb \!| GigablastOpenSource | GozaikBot | Go \!Zilla | Go \ -Ahead \ -Got \ -It | GrabNet | Grafula | GrapeshotCrawler | GTB5 | GT \:\:WWW | Guzzle | harvest | heritrix | HMView | HomePageBot | HTTP \:\:Lite | HTTrack | HubSpot | ia_archiver | icarus6 | IDBot | id \ -search | IlseBot | Image \ Stripper | Image \ Sucker | Indigonet | Indy \ Library | integromedb | InterGET | InternetSeer \ .com | Internet \ Ninja | IRLbot | ISC \ Systems \ iRc \ Search \ 2 \。1 | jakarta | Java | JetCar | JobdiggerSpider | JOC \ Web \ Spider | Jooblebot |神奈川县| KINGSpider | kmccrew | larbin | LeechFTP | libwww | Lingewoud | LinkChecker | linkdexbot | LinksCrawler | LinksManager \ .com_bot | linkwalker | LinqiaRSSBlt | x || LubbersBot | lwp \ -trivial | Mail.RU_Bot | masscan | Mass \下载器| maverick | Maxthon $ | Mediatoolkitbot | MegaIndex | MegaIndex | megaindex | MFC_Tear_Sample | Microsoft \ URL \ Control | microsoft \ .url | MIDown \工具| miner | Missigua \ Locator | Mister \ PiX | mj12bot | Mozilla。* Indy | Mozilla。* NEWT | MSFrontPage | msnbot | Navroad | NearSite | NetAnts | netEstate | NetSpider | NetZIP | Net \ Vampire | NextGenSearchBot | nutch | Octopus | Offline \ Explorer | Offline \ Navigator | OpenindexSpider | OpenWebSpider | OrangeBot | Owlin | PageGrabber | PagesInventory | panopta | panscient \ .com | Papa \ Foto | pavuk | pcBrowser | PECL \:\ :: HTTP | PeoplePal | Photon | PHPCrawl | planetwork | PleaseCrawl | PNAMAIN。EXE | PodcastPartyBot |最出色的|代理| psbot | purebot | pycurl | QuerySeekerSpider | R6_CommentReader | R6_FeedFetcher | RealDownload | ReGet | Riddler | Rippers \ 0 | rogerbot | RSSingBot | rv \:1.9.1 | RyzeCrawler | SafeSearch | Screaming | SeaMonkey $ | search.goo.ne.jp | SearchmetricsBot | search_robot | SemrushBot | Semrush | SentiBot | SEOcks | SeznamBot | ShowyouBot | SightupBot | SISTRIX | sitecheck \ .internetseer \ .com | siteexplorer.info | SiteSnagger | sky Slackbot | Slurp | SmartDownload | Snoopy | Sogou | Sosospider | spaumbot | Steeler |吸盘| SuperBot | Superfeedr | SuperHTTP | SurdotlyBot | Surfbot | tAkeOut | Teleport \ Pro | TinEye-bot | TinEye | Toata \ dragostea \ mea | mea \ pentru \ Toplistbot | trendictionbot | TurnitinBot | turnit | Twitterbot | URI \:\:Fetch | urllib | Vagabondo | Vagabondo | vikspider | VoidEYE | VoilaBot | WBSearchBot | webalta | WebAuto | WebBandit | WebCollage | WebCopier | WebFetch | WebGo \ IS | WebLeacher | WebReaper | WebSauger | Website \ eXtractor | Web站点| Quester | WebStr WebZIP | Web \图像\收集器| Web \ Sucker | Wells \ Search \ II | WEP \ Search | WeSEE | Wget | Widow | WinInet | woobot | woopingbot | worldwebheritage.org | Wotbox | WPScan | WWWOFFLE | WWW \ -Mechanize | Xaldon \ WebSpider | XoviBot | yacybot | Yahoo | YandexBot | Yandex | YisouSpider | zermelo | Zeus | zh-CN | ZmEu | ZumBot | ZyBorg)){org | Wotbox | WPScan | WWWOFFLE | WWW \ -Mechanize | Xaldon \ WebSpider | XoviBot | yacybot | Yahoo | YandexBot | Yandex | YisouSpider | zermelo | Zeus | zh-CN | ZmEu | ZumBot | ZyBorg)){org | Wotbox | WPScan | WWWOFFLE | WWW \ -Mechanize | Xaldon \ WebSpider | XoviBot | yacybot | Yahoo | YandexBot | Yandex | YisouSpider | zermelo | Zeus | zh-CN | ZmEu | ZumBot | ZyBorg)){
    返回410;
}

里面基本涵盖了所有的搜索引擎爬虫,有好的也有恶意的。自己可以根据需要进行增减。

 收藏 (0) 更新不易,打赏吧

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

除特别注明外,本站所有文章均基于CC-BY-NC-SA 4.0原创,转载请注明出处。
文章名称:《屏蔽恶意垃圾蜘蛛爬虫加速网站访问 保护网站不被恶意刷流量》
文章链接:https://www.xiapilu.com/web/web-tutorial/disallow-web-badbot.html
分享到: 生成海报

评论 抢沙发

评论前必须登录!

立即登录   注册

切换注册

登录

忘记密码 ?

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活