小小网站竟也有这么多蜘蛛(robot,spider)光顾,要不要更新个robots呢

网站程序:wordpress,自带主题

更新情况:15年后大约一年半未更新,17年7月中旬有更新,半个月更新两篇文章

来访蜘蛛汇总:

mj12bot
“Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)”

AhrefsBot
“Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)”

seznambot
“Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)”

SEOkicks-Robot
“Mozilla/5.0 (compatible; SEOkicks-Robot; +http://www.seokicks.de/robot.html)”

YandexBot
“Mozilla/5.0 (compatible; linkdexbot/2.0; +http://www.linkdex.com/bots/)”

DomainCrawler
“DomainCrawler/3.0 (info@domaincrawler.com; http://www.domaincrawler.com/linxiongxiong.com)”

常见蜘蛛:
googlebot
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

bingbot
“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

Baiduspider
“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

Sogou web spider
“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

360Spider
“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider”

Yahoo! Slurp
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

冷门爬虫还是很多的

mj12bot,这个抓的真勤快,是英国的一家搜索引擎,IP范围:分布式,全球,服从Robots.txt,服从爬行延迟,数据送达Majestic.com。

AhrefsBot,是一个web爬虫,有先关SEO工具,服从Robots.txt, 服从爬行延迟,官网宣称,AhrefsBot是Googlebot之后第二大活跃的抓取工具。

seznambot,捷克的一家搜索引擎。

SEOkicks-Robot,德国的一家查询反向链接的搜索引擎。

YandexBot,俄罗斯的一家搜索引擎。

DomainCrawler,一个搜集域名信息的爬虫,也有DNS工具。

另外发现一些没有UA标识的爬虫,例如:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36/Nutch-1.13
Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2

发现百度竟然也这样做,不知道是不是测试爬虫。

当然,还有很多蜘蛛没有光顾,之后遇到再更新。



小小网站竟也有这么多蜘蛛(robot,spider)光顾,要不要更新个robots呢》上有2条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>