一个新的独立的搜索引擎: 有道 yodao.com发布了,有道搜索引擎用的什么机器人呢?用crawledby方法查了一下:很眼熟的名字,原来有道蜘蛛就是以前被认为是匿名盗抓的OutfoxBot啊……
新搜索引擎发布,还是要祝贺一下。这里还给有道蜘蛛的一些建议:
1 做个机器人抓取说明页吧(最好有联系方式),并加入到蜘蛛UA中有道蜘蛛的帮助: 写的很详细了 http://www.yodao.com/help/webmaster/spider/就是还没有被其他引擎收录;
2 查查以前UA中留的gmail邮箱:给向你们提意见的用户一个回复;
在有道的搜索结果附后:
查询为: site:chedong.com crawledby
ipfw - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-04 07:37 @60.191.80.35 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/ipfw - 1006 - 2006-12-04 - 快照
java - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-06 07:15 @60.191.80.46 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php?mode=perl ... - 1K - 2006-12-06 - 快照
stunnel4 - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-11-17 05:42 @60.191.80.29 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/stunnel4 - 1014 - 2006-11-17 - 快照
intro(2) - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-06 23:26 @60.191.80.27 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/intro/2 - 4K - 2006-12-06 - 快照
后记:
1 目前还不能透露太多Outfox所在公司的背景,沟通还是很积极的,感谢;也看到日志中的yodaobot的访问了:
chedong_access_log.20061214:60.191.80.43 - - [14/Dec/2006:21:31:43 +0800] "GET /digest/20060825.html HTTP/1.1" 304 - "-" "YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )" 60.191.80.43.319491166103103746
这里还有一份有道蜘蛛的12月对本站的抓取统计,最后更新时间为本月13/14日,上周五刚改的?
OutfoxBot crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 166 166 37.45 K字节 2006年 十二月 14日 19:39
/blog/ 37 37 1.52 M字节 2006年 十二月 14日 09:45
/phpMan.php 33 33 89.45 K字节 2006年 十二月 14日 04:53
/ 27 27 1.25 M字节 2006年 十二月 14日 09:45
/phpMan.php/man/intro/3 16 16 58.97 K字节 2006年 十二月 14日 19:39
/phpMan.php/phpinfo 13 13 394.83 K字节 2006年 十二月 13日 11:57
/blog/archives/001195.html 13 13 245.30 K字节 2006年 十二月 14日 10:26
/blog/archives/001240.html 12 12 132.39 K字节 2006年 十二月 14日 04:55
/blog/archives/001117.html 10 10 459.88 K字节 2006年 十二月 13日 23:30
/blog/archives/001047.html 9 9 100.69 K字节 2006年 十二月 13日 11:56
/blog/archives/001216.html 9 9 122.66 K字节 2006年 十二月 14日 19:46
/blog/archives/000772.html 9 9 264.73 K字节 2006年 十二月 12日 08:45
/blog/archives/001230.html 9 9 115.75 K字节 2006年 十二月 14日 09:46
/blog/archives/001249.html 9 9 146.90 K字节 2006年 十二月 14日 05:56
Yodaobot就是一个比较搜索引擎反映速度和索引策略的一个关键词:
Google: 26 条
Baidu: 3条
Yahoo: 25条
Yodao: 0条?
Sogou: 77条
MSN 235条:这里有个有趣的页面,msnbot刚好抓到了由YodaoBot生成的缓存页面:
# 北京酒店-北京香格里拉饭店, 中国
You are using: YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )
* www.shangri-la.com/beijing/shangri-la/sc * · 2006-12-16 * · 缓存页面
现在点击过去:也是同样的UA信息。
版权声明:可以转载,转载时请务必以超链接形式标明文章 盗亦有道:OutfoxBot原来是有道蜘蛛 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001256.html
Comments
这个OutfoxBot好像后来表现一直还可以。中间有段时间有点bt,可能是程序有bug,不过改了就好。这两天新过来的爬虫好像叫yodaobot了,你注意到没?
由: mistaet 发表于 2006年12月17日 上午10时18分
我也注意到有道的爬虫,信息是这样的:“YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )”
由: Feir 发表于 2006年12月17日 下午12时04分
注意到了,不过好像被收录得不多
由: sherry 发表于 2006年12月17日 下午03时53分
site:etng.net
出来的不止是我的网站上的东西,是不是他美这个功能呢?
由: etng 发表于 2006年12月18日 上午09时42分
还没用过这个搜索引擎
由: igoldc 发表于 2006年12月19日 上午10时36分
outfoxbot@gmail.com这个么?有道是不是网易的产品?
由: leshou 发表于 2007年02月12日 上午11时26分