一年前做的一个小试验:车东[Blog^2]: 让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站 今天这个试验又查了一遍:看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几家拥有自主后台网页引擎的在过去一年的发展。
site:chedong.com crawled by这个命令在各个引擎上几乎都是通用的。虽然显示出来的User Agent信息是各个搜索引擎蜘蛛团队的举手之劳:但从一些细节上还是能看到很多差异。
Google
车东Che, Dong - My Window, Your Bridge
联系方式|Contact]. Google Talk · 雅虎招聘 [My Bloginality is INTJ]. Alexa流量统计:, 2006-02-25 11:39 @66.249.64.15 Crawled by Googlebot/2.1 (+http://www.google.com/bot.html) show this page source · Send me a book.
www.chedong.com/ - 39k - 2006年2月24日 - 网页快照 - 类似网页
uniq - phpMan - [ 翻译此页 BETA ]
On Apache/1.3.34 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.2 Under GNU General Public License · 2006-02-18 11:16 @66.249.65.5 Crawled by Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) · Valid XHTML 1.0! ...
www.chedong.com/phpMan.php/man/uniq - 5k - 网页快照 - 类似网页
Google的蜘蛛版本没有变化,但是从不同网段来的有些有Mozilla/5.0前缀,有些则没有,页面摘要很均匀,还原/可读性较好。
百度
车东 Che, Dong - My Window, Your Bridge
by Fernada Viégas, Martin Wattenberg & myself. for all those infosthetically minded ...Crawled by Baiduspider+(+http://www.baidu.com/search/spider.htm) show this page sourceSend me ...
www.chedong.com/ 41K 2006-2-25 - 百度快照
蜘蛛很规范,但是从上下文摘要中:似乎对原文多滤掉了一些标点,从搜索结果看:所有英文内容都被滤掉了。抓取/更新很快
雅虎
车东 Che, Dong - My Window, Your ...
车东 Che, Dong - My Window, Your Bridge. Sat 25 February, 2006. 据说 ... 93 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp China ...
www.chedong.com - 42K - 2006年02月25日 - 网页快照 - 更多此站结果
Slurp China是从中国进行的抓取,site:命令参数被当成关键词标引,而摘要中的“上文”被截断太多,有些影响可读性,摘要/除重仍然是明显的问题;
MSN
#车东 Che, Dong - My Window, Your Bridge
My Bloginality is INTJ ] Alexa流量统计: 2006-02-24 15:18 @65.54.188.102 Crawled by msnbot/1.0 (+http://search.msn.com/msnbot.htm) show this page source
* www.chedong.com * Cached page * 2/24/2006
去年的试验时: MSNBot的版本号是0.3,今年是1.0 综合表现进步很快;
其他几个引擎:目前尚未看到遵循robots.txt协议
搜狗
车东 Che, Dong - My Window, Your Bridge
[联系方式|Contact] Alexa流量统计: 2006-02-06 14:27 @220.181.19.92 Crawled by sogou spider . Ada's Blog 艾达思语 UrMap:台版GoogleMaps . Jan's Tech Blog Helen Zawodny: 1922 - 2006 ....
chedong.com/ - 47k - 2006-02-06 - 网页快照
sohu agent最近看不到了,已经改成了sogou agent,但是可能搜狗的链接提取环节提取却出了不少问题:
因为看到sogou踪迹的全部都是在error_log里:根据220.181.19.92这个IP的分析
error_log:[Fri Feb 17 09:37:24 2006] [error] [client 220.181.19.92] File does not exist: /home/apache/chedong.com/www/phpman.php
error_log:[Fri Feb 17 09:43:50 2006] [error] [client 220.181.19.92] File does not exist: /home/apache/chedong.com/www/tech/awstats.htm
error_log:[Fri Feb 17 10:06:42 2006] [error] [client 220.181.19.92] File does not exist: /home/apache/chedong.com/www/<:a href='http:/www.empirecn.net/program/php/' target=_blank>:php<:/a>:Man.<:a href='http:/www.empirecn.net/program/php/' target=_blank>:php<:/a>:
原来大量的404错误都是搜狗的蜘蛛带来的:
1 不正常将原始URL编程小写字母;
2 在页面url不规范的时候,没有纠错处理;
中搜
clear(1) - phpMan
...5) clear(1) Generated by $Id: phpMan.php,v 4.42 2005/02/10 11...06 @202.108.1.8 Crawled by User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)
www.chedong.com/phpMan.php/man/clear... 上的更多结果 2005-03-21 中搜快照
一如既往的仍然伪装成Windows 2000来抓取你的网页
新浪
mytime(2) - phpMan
GNU General Public License2005-08-15 02:57 @219.142.78.246 Crawled by Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.0;.NET CLR 1.1.432)...
www.chedong.com/phpMan.php/man/myti... 2005-08-15 - 网页快照 收藏此网页
去年7,8月份还是伪装成Windows 2000上的IE。
rndc(5) - phpMan
GNU General Public License2006-02-20 05:19 @219.142.78.87 Crawled by iaskspider...
www.chedong.com/phpMan.php/man/rndc/5/ 2005-12-11 - 网页快照 收藏此网页
12月份以后改成了IaskSpider
版权声明:可以转载,转载时请务必以超链接形式标明文章 site:chedong.com crawled by 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001127.html
Comments
兄弟我又学了一招. 虽然简单,但思路可贵. 在 163时,也想过如何记录google爬过我们的页面的时间,做个统计什么的。应该也想了一个小时,未果,后来就不了了之了。今在你处得到思路,真是感谢。
由: andy_haha 发表于 2006年02月27日 傍晚07时07分
不过,车东给你一点小意见:在文章中分支出去的链接,最好用下 target=_blank 。
由: andy_haha 发表于 2006年02月27日 傍晚07时10分
Hi there!
I was perusing your site and noticed that you have a link to us on your site -- thanks for that – and this is just a quick note to let you know that we've changed our URL – from the original www.thatsbj.com to the new www.thebeijinger.com.
Pop by and you'll notice the content remains the same, as always, including:
-- Beijing's most active free classifieds;
-- An oft-used (and occasionally abused!) bbs
-- Our extensive Beijing directory and events listings
-- The online archive of articles from that’s Beijing magazine
-- A large collection of Beijing-related links
-- An online gallery of Beijing party and event photos
-- And our new web-only content posted daily in our tbjblog
Thanks again for linking to us and please send us a message any time if you have any questions!
Victoria
the Beijinger Web Editor
由: The Beijinger 发表于 2007年11月26日 下午03时44分