hl_ftien_spider原来是海量的蜘蛛 (车东[Blog^2])

最近很多站点都发现了一个名叫hl_ftien_spider的蜘蛛，这个蜘蛛的抓取频度：可是相当的厉害，几乎和DoS攻击差不多，自然也引起了不少公愤：

今天网站流量再度攀升,经检查原来是一个名为"hl_ftien_spider"的蜘蛛在疯狂的爬我的网站网页.

grep hl_ftien_spider access_log.20060304 |awk '{print $1 $2 $4 $3 $12}'

218.68.240.81-[04/Mar/2006:22:57:11-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:27-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:28-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:28-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:45-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:46-"hl_ftien_spider"

................

这样胡乱爬网页跟攻击没有什么区别,马上封了该ip地址,iptables在封锁ip上还是非常有效的:

iptables -A INPUT -s 218.68.240.38 -j REJECT

查询了一下该Ip地址,是来自天津的:

您要查询的是"218.68.240.38"，它被理解为"218.68.240.38"

官方数据:
在亚洲与太平洋网络信息中心(APNIC)找到:

% [whois.apnic.net node-1]
% Whois data copyright terms http://www.apnic.net/db/dbcopyright.html

路由: 218.68.0.0/15
单位全名和地址: CNC Group CHINA169 Tianjin Province Network
国家或地区: 中国
自治域(AS): AS4837
维护者: MAINT-CNCGROUP-RR
变更记录: abuse@cnc-noc.net 20060118
信息来源: APNIC

谁知道这是哪家的蜘蛛出来乱爬么?

Google上也没有有用的信息,似乎是流氓引擎吧.

看看WebMasterWorld上的评论：

This bot hit my site today, picked up robots.txt, then picked up a few dozen pages - and tried to pick up about 1800 more pages after it hit a bot trap.

All of which it did within 4 minutes.

The IP is the same as you had, and it resolves to net263.com in China.
I've banned it.

我今天从服务器的突然后台负载增高也发现了这个蜘蛛，上月的一次大量抓取来自上海某高校，当时不得不将我的twiki改成了认证登录。



60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/nl/3ncurses HTTP/1.1" 200 10235 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/printw/3ncurses HTTP/1.1" 200 4939 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/curl_mvsnprintf/3 HTTP/1.1" 200 6830 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/HTML::Element/3pm HTTP/1.1" 200 61844 "http://www.chedong.com/phpMan.php/man/class/1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/vw_printw/3ncurses HTTP/1.1" 200 4948 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/vprintf/3 HTTP/1.1" 200 30165 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/yes/1 HTTP/1.1" 200 3301 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:44 +0800] "GET /phpMan.php/man/snprintf/3 HTTP/1.1" 200 30168 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:45 +0800] "GET /phpMan.php/man/vfprintf/3 HTTP/1.1" 200 30168 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

60.28.249.27 - - [31/Mar/2006:17:32:45 +0800] "GET /phpMan.php/man/scrollok/3ncurses HTTP/1.1" 200 10253 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

网站稍微差一点的都会承受不住压力的。我今天顺着来源的IP地址看了一下，http://60.28.249.27/ 这不是海量的DIGDIG搜索引擎的论坛吗？

给海量提个建议：将蜘蛛的抓取频度控制一下。抓取网站链接的任务队列尽量根据域名/IP地址分布的均匀一些。hl_ftien_spider就是： HaiLiang Full Text Index English Spider的缩写。另外：我也很奇怪，海量为什么没有成为中国的BasisTech呢？

作者：车东发表于：2006-03-31 17:03 最后更新于：2007-04-15 19:04
版权声明：可以转载，转载时请务必以超链接形式标明文章 hl_ftien_spider原来是海量的蜘蛛的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001137.html

« CC China 2.5协议正式发布 | (回到Blog入口)|(回到首页) | MT spamlookup中的参数调优 » [再编辑]

Comments

差一点以为走错了地方,Che Dong的UI采用了和Fenng同样的风格 :)

回复Eygle：
是的，借用了他的css

由: eygle 发表于 2006年03月31日下午06时09分

iptables -A INPUT -s 218.68.240.38 -j DROP

对这样的来源，直接把包丢掉就好了，不用回复，免得浪费带宽 ;-)

由: Zhang Erning 发表于 2006年04月01日夜间02时32分

如何做到DNS就近访问？

由: 张扬发表于 2006年04月02日上午10时23分

不错,最近我的服务器也收到一些安全的干扰,借鉴一下各位的招数

由: 梦游魂地发表于 2006年04月02日傍晚07时52分

非常抱歉，已经安排人去处理。

由: haoxilong 发表于 2006年04月04日上午09时06分

hl_ftien_spider 这个蜘蛛的却比较烦人，他总是不断爬行我的任何深度的网站，同时我后来用javascript方式处理一些连接来防止爬行，结果hl_ftien_spider 也能识别javascript方式连接，很是头疼，而且他的ip有n多个，经过我多次的封锁，包括他的ip段，最后才能防止了这个垃圾蜘蛛

由: test 发表于 2006年05月01日夜间12时52分

我也发现了，到底这个hl_ftien_spider是什么来头啊？

由: zhaiduo 发表于 2006年08月25日下午01时34分

天津海量是中科院一个博士研究生做的，在国内中文自然语言理解上有比较高的知名度，从我了解开始就已经有三年了，曾经来给我们搜索小组做过一个产品算法培训，也是江西人。
它的爬虫可以通过定义robots.txt来屏蔽，符合robots规范，但是它在抓取频率上没有控制好，所以经常把人家的网站搞死。

由: 汤汤发表于 2006年10月26日下午12时17分

发表一个评论

(如果你此前从未在此 Blog 上发表过评论，则你的评论必须在 Blog 主人验证后才能显示，请你耐心等候。)

名字:

Email 地址:

记住个人信息？

评论:

车东[Blog^2]

良好引用，良好结构，良好导航 Well referenced and well organized, with easy navigation

hl_ftien_spider原来是海量的蜘蛛

Comments

发表一个评论

搜索

相关文章

关于