【清 真 攻 击】华为搜索爬虫高频抓取网站内容,犹如DDOS
消息源:墙内:https://www.landiannews.com/archives/73796.html
墙外:https://www.hypernode.com/blog/performance/huawei-aspiegelbot-is-increasingly-impacting-european-online-stores
这个新爬虫为名为AspiegelBot主要模拟安卓机进行抓爬 , UA标识符里也没有标注爬虫所属公司对应的介绍界面。
经过搜索发现这个爬虫属于华为旗下的Aspiegel公司 , 该公司位于爱尔兰负责华为移动服务国际版的运营。
高频抓爬如小型DDoS攻击:
正常情况下搜索引擎爬虫会根据网站的负载情况动态调整抓爬频率,防止因抓爬频率过高影响被抓取网站的访问。
爬虫抓取内容时与正常用户访问网站类似,因此当抓爬频率过高时会消耗网站大量服务器资源影响正常用户访问。
华为的搜索引擎爬虫就存在高频抓爬问题,即爬虫无视服务器负载情况疯狂抓取和重复抓取大量内容消耗服务器。
这种抓爬情况的结果就是被抓爬的网站服务器资源被消耗过大影响正常服务,甚至还会出现网站服务中断等情况。
个别时候华为搜索引擎爬虫的超高频抓取甚至如小型 DDoS攻击,遭到抓爬的网站瞬间瘫痪只能购买更多服务器。
例如最近Hypernode,华为爬虫访问频次增加达 460%,迫于无奈该网站只能通过多种措施屏蔽华为的访问。
华为爬虫并没有遵守Robots.txt,甚至都不会访问网站设置的Robots.txt文件。
If you have any experiences you would like to share about Huawei’s AspiegelBot, please get in contact with hypernode. (For example, we heard some rumours about the bot not listening to the robot.txt file.) We would love to gather more information! support@hypernode.com
墙外:https://www.hypernode.com/blog/performance/huawei-aspiegelbot-is-increasingly-impacting-european-online-stores
这个新爬虫为名为AspiegelBot主要模拟安卓机进行抓爬 , UA标识符里也没有标注爬虫所属公司对应的介绍界面。
经过搜索发现这个爬虫属于华为旗下的Aspiegel公司 , 该公司位于爱尔兰负责华为移动服务国际版的运营。
高频抓爬如小型DDoS攻击:
正常情况下搜索引擎爬虫会根据网站的负载情况动态调整抓爬频率,防止因抓爬频率过高影响被抓取网站的访问。
爬虫抓取内容时与正常用户访问网站类似,因此当抓爬频率过高时会消耗网站大量服务器资源影响正常用户访问。
华为的搜索引擎爬虫就存在高频抓爬问题,即爬虫无视服务器负载情况疯狂抓取和重复抓取大量内容消耗服务器。
这种抓爬情况的结果就是被抓爬的网站服务器资源被消耗过大影响正常服务,甚至还会出现网站服务中断等情况。
个别时候华为搜索引擎爬虫的超高频抓取甚至如小型 DDoS攻击,遭到抓爬的网站瞬间瘫痪只能购买更多服务器。
例如最近Hypernode,华为爬虫访问频次增加达 460%,迫于无奈该网站只能通过多种措施屏蔽华为的访问。
华为爬虫并没有遵守Robots.txt,甚至都不会访问网站设置的Robots.txt文件。
If you have any experiences you would like to share about Huawei’s AspiegelBot, please get in contact with hypernode. (For example, we heard some rumours about the bot not listening to the robot.txt file.) We would love to gather more information! support@hypernode.com