盗亦有道:OutfoxBot原来是有道蜘蛛


一个新的独立的搜索引擎: 有道 yodao.com发布了,有道搜索引擎用的什么机器人呢?用crawledby方法查了一下:很眼熟的名字,原来有道蜘蛛就是以前被认为是匿名盗抓OutfoxBot啊……

新搜索引擎发布,还是要祝贺一下。这里还给有道蜘蛛的一些建议:
1 做个机器人抓取说明页吧(最好有联系方式),并加入到蜘蛛UA中有道蜘蛛的帮助: 写的很详细了 http://www.yodao.com/help/webmaster/spider/就是还没有被其他引擎收录;
2 查查以前UA中留的gmail邮箱:给向你们提意见的用户一个回复;

在有道的搜索结果附后:

查询为: site:chedong.com crawledby

ipfw - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-04 07:37 @60.191.80.35 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/ipfw - 1006 - 2006-12-04 - 快照
java - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-06 07:15 @60.191.80.46 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php?mode=perl ... - 1K - 2006-12-06 - 快照
stunnel4 - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-11-17 05:42 @60.191.80.29 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/stunnel4 - 1014 - 2006-11-17 - 快照
intro(2) - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-06 23:26 @60.191.80.27 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/intro/2 - 4K - 2006-12-06 - 快照


后记:
1 目前还不能透露太多Outfox所在公司的背景,沟通还是很积极的,感谢;也看到日志中的yodaobot的访问了:
chedong_access_log.20061214:60.191.80.43 - - [14/Dec/2006:21:31:43 +0800] "GET /digest/20060825.html HTTP/1.1" 304 - "-" "YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )" 60.191.80.43.319491166103103746

这里还有一份有道蜘蛛的12月对本站的抓取统计,最后更新时间为本月13/14日,上周五刚改的?

OutfoxBot crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 166 166 37.45 K字节 2006年 十二月 14日 19:39
/blog/ 37 37 1.52 M字节 2006年 十二月 14日 09:45
/phpMan.php 33 33 89.45 K字节 2006年 十二月 14日 04:53
/ 27 27 1.25 M字节 2006年 十二月 14日 09:45
/phpMan.php/man/intro/3 16 16 58.97 K字节 2006年 十二月 14日 19:39
/phpMan.php/phpinfo 13 13 394.83 K字节 2006年 十二月 13日 11:57
/blog/archives/001195.html 13 13 245.30 K字节 2006年 十二月 14日 10:26
/blog/archives/001240.html 12 12 132.39 K字节 2006年 十二月 14日 04:55
/blog/archives/001117.html 10 10 459.88 K字节 2006年 十二月 13日 23:30
/blog/archives/001047.html 9 9 100.69 K字节 2006年 十二月 13日 11:56
/blog/archives/001216.html 9 9 122.66 K字节 2006年 十二月 14日 19:46
/blog/archives/000772.html 9 9 264.73 K字节 2006年 十二月 12日 08:45
/blog/archives/001230.html 9 9 115.75 K字节 2006年 十二月 14日 09:46
/blog/archives/001249.html 9 9 146.90 K字节 2006年 十二月 14日 05:56

Yodaobot就是一个比较搜索引擎反映速度和索引策略的一个关键词:
Google: 26 条
Baidu: 3条
Yahoo: 25条
Yodao: 0条?
Sogou: 77条
MSN 235条:这里有个有趣的页面,msnbot刚好抓到了由YodaoBot生成的缓存页面:
# 北京酒店-北京香格里拉饭店, 中国
You are using: YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )
* www.shangri-la.com/beijing/shangri-la/sc * · 2006-12-16 * · 缓存页面
现在点击过去:也是同样的UA信息。

作者:车东 发表于:2006-12-17 00:12 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

引用通告

以下是前来引用的链接: 盗亦有道:OutfoxBot原来是有道蜘蛛:

» Google分析使用技巧:给Analytics增加针对百度/soso等搜索来源统计代码 来自 车东[Blog^2]
和AWStats一样,Google Analytics完全没有考虑中国的搜索引擎... [阅读更多细节]

Comments

这个OutfoxBot好像后来表现一直还可以。中间有段时间有点bt,可能是程序有bug,不过改了就好。这两天新过来的爬虫好像叫yodaobot了,你注意到没?

我也注意到有道的爬虫,信息是这样的:“YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )”

注意到了,不过好像被收录得不多

site:etng.net
出来的不止是我的网站上的东西,是不是他美这个功能呢?

还没用过这个搜索引擎

outfoxbot@gmail.com这个么?有道是不是网易的产品?

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2006年12月17日 夜间12时49分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 [MT] Trackback spambot的特征分布 - 2006年12月份

此 Blog 的后一篇日记是 如何利用豆瓣的RSS接口

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36