【清 真 攻 击】华为搜索爬虫高频抓取网站内容,犹如DDOS

消息源:墙内:https://www.landiannews.com/archives/73796.html
墙外:https://www.hypernode.com/blog/performance/huawei-aspiegelbot-is-increasingly-impacting-european-online-stores


这个新爬虫为名为AspiegelBot主要模拟安卓机进行抓爬 , UA标识符里也没有标注爬虫所属公司对应的介绍界面。
经过搜索发现这个爬虫属于华为旗下的Aspiegel公司 , 该公司位于爱尔兰负责华为移动服务国际版的运营。

高频抓爬如小型DDoS攻击:
正常情况下搜索引擎爬虫会根据网站的负载情况动态调整抓爬频率,防止因抓爬频率过高影响被抓取网站的访问。
爬虫抓取内容时与正常用户访问网站类似,因此当抓爬频率过高时会消耗网站大量服务器资源影响正常用户访问。
华为的搜索引擎爬虫就存在高频抓爬问题,即爬虫无视服务器负载情况疯狂抓取和重复抓取大量内容消耗服务器。
这种抓爬情况的结果就是被抓爬的网站服务器资源被消耗过大影响正常服务,甚至还会出现网站服务中断等情况。
个别时候华为搜索引擎爬虫的超高频抓取甚至如小型 DDoS攻击,遭到抓爬的网站瞬间瘫痪只能购买更多服务器。
例如最近Hypernode,华为爬虫访问频次增加达 460%,迫于无奈该网站只能通过多种措施屏蔽华为的访问。
https://i.imgur.com/xJpo4Up.png
华为爬虫并没有遵守Robots.txt,甚至都不会访问网站设置的Robots.txt文件。

If you have any experiences you would like to share about Huawei’s AspiegelBot, please get in contact with hypernode. (For example, we heard some rumours about the bot not listening to the robot.txt file.) We would love to gather more information! support@hypernode.com
9
分享 2020-05-12

19 个评论

忘了补充菊花的确不会访问robot.txt,然后ddos在本文是形容词,指ao大多爬虫流量犹如ddo...


我明白你的意思,但是DDOS本身的两层意思,就是用拒绝访问,用有限的TCP封包消耗服务器资源;加上僵尸网络组织分布式攻击,在单一事件内扩大攻击频率,同时让对方防spam机制失效。

抓内容首先就是合法的HTTP请求,其次爬虫的每一个实例应该也都是基于同一个IP的,不然要编写分布式抓取的代码需要大量工作,远不如利用WGET之类的现成工具就好。

所以我觉得比喻不伦不类。华为本身就在试图建立可以比肩Google service的所谓华为服务,也在搞大数据,抓网页不算什么大新闻。用这种新闻也无法在德国法国之类的国家给华为造成致命打击,没啥用。

要发言请先登录注册

要发言请先登录注册

发起人

你弱牠就强 境外月球势力 生活中的每一点刺激把我往屠支大佐的路带,而生活中的每一滴温暖劝我不要走屠支之路。

状态

  • 最新活动: 2020-05-18
  • 浏览: 9535