一年前做的一个小试验:车东[Blog^2]: 让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站 今天这个试验又查了一遍:看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几家拥有自主后台网页引擎的在过去一年的发展。
site:chedong.com crawled by这个命令在各个引擎上几乎都是通用的。虽然显示出来的User Agent信息是各个搜索引擎蜘蛛团队的举手之劳:但从一些细节上还是能看到很多差异。
Google
车东Che, Dong - My Window, Your Bridge
联系方式|Contact]. Google Talk · 雅虎招聘 [My Bloginality is INTJ]. Alexa流量统计:, 2006-02-25 11:39 @66.249.64.15 Crawled by Googlebot/2.1 (+http://www.google.com/bot.html) show this page source · Send me a book.
www.chedong.com/ - 39k - 2006年2月24日 - 网页快照 - 类似网页
uniq - phpMan - [ 翻译此页 BETA ]
On Apache/1.3.34 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.2 Under GNU General Public License · 2006-02-18 11:16 @66.249.65.5 Crawled by Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) · Valid XHTML 1.0! ...
www.chedong.com/phpMan.php/man/uniq - 5k - 网页快照 - 类似网页
Google的蜘蛛版本没有变化,但是从不同网段来的有些有Mozilla/5.0前缀,有些则没有,页面摘要很均匀,还原/可读性较好。
百度
车东 Che, Dong - My Window, Your Bridge
by Fernada Viégas, Martin Wattenberg & myself. for all those infosthetically minded ...Crawled by Baiduspider+(+http://www.baidu.com/search/spider.htm) show this page sourceSend me ...
www.chedong.com/ 41K 2006-2-25 - 百度快照
蜘蛛很规范,但是从上下文摘要中:似乎对原文多滤掉了一些标点,从搜索结果看:所有英文内容都被滤掉了。抓取/更新很快
雅虎
车东 Che, Dong - My Window, Your ...
车东 Che, Dong - My Window, Your Bridge. Sat 25 February, 2006. 据说 ... 93 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp China ...
www.chedong.com - 42K - 2006年02月25日 - 网页快照 - 更多此站结果
Slurp China是从中国进行的抓取,site:命令参数被当成关键词标引,而摘要中的“上文”被截断太多,有些影响可读性,摘要/除重仍然是明显的问题;
MSN
#车东 Che, Dong - My Window, Your Bridge
My Bloginality is INTJ ] Alexa流量统计: 2006-02-24 15:18 @65.54.188.102 Crawled by msnbot/1.0 (+http://search.msn.com/msnbot.htm) show this page source
* www.chedong.com * Cached page * 2/24/2006
去年的试验时: MSNBot的版本号是0.3,今年是1.0 综合表现进步很快;
前天买了《苹果传奇》(作者:Owen W Linzmayer)和《洛丽塔》(作者:弗拉基米尔•纳博科夫)这两本书。Owen W Linzmayer(作者的网站www.owenink.com)在《苹果传奇》的序言里写到一些文字,我昨天看到以后就很喜欢,贴出来与大家共勉:
“试想一下,我的工作的一部分就是编辑几乎一切介绍苹果公司的资料。至少可以说,关注苹果公司发生的一切一直都很有挑战性。我曾见证过闲言碎语如何成为谣言,谣言又如何成为事实,事实如何变成传奇故事。我看到商业记者们一次又一次过早地给苹果公司写悼词,我曾退缩过。我查阅了大量厚厚的资料,白纸黑字真的枯燥无味。我将这些不足都记在心头。尽可能让本书准确、客观地反映事实,并尽可能使它轻松有趣。准确的是非常好的目标,但是实现这个目标需要付出相当的努力。描写现代公司的历史带来的乐趣之一就是,参与这段历史的多数人都还健在,他们也愿意讲述那段历史。只要有可能,我就拜访关键人物,请他们评论本书相关部分的内容。我没有采用任何表面上看起来有价值的资料,因为记忆常常会出错(尤其是数十年前的事),自负是脆弱的(成功的原因很多,失败却没有理由)。不是老调重弹,重复一些多数人知道的东西,而是翻箱倒柜查遍尘封的文档和重温源文件,努力向大家展示苹果公司的真相。因此,你可以相信本书日期、数据或引言的准确性。
做到客观远没有准确容易。我所要做的就是写作时抑制表达自己观点的欲望。序言部分是惟一表达我的思想的地方。我没有必须做的任务,不用接受别人安排的业绩考核,也不用昧着良心忠于该公司。无可否认,我只是选择我主观上觉得重要和有趣的故事。不过,因为我没有挑衅或诽谤任何人,所以不曾故意省略任何诅咒或开脱罪责的材料。我只是汇编事实,然后由读者判断并得出自己的结论。本书按时间先后记录了苹果公司非凡历史的鼎盛与落寞。从苹果公司作为讨人喜欢的媒介新贵开始,到成为业界领先的发动机,再到由于一系列灾难性的高层决策跌跟头而衰落,在技术领先的鞭笞下它总能度过难关,重新恢复盈利能力,创新不止。”
这本书的中文版编辑在处理这本书的板式设计的时候,好象把它和软件指南一类的书籍一样看待。如果它能够设计得更精致一些,就更吻合苹果公司的风格:)
Happy Birthday to us! Though the company was founded back in October of 2003, today is the official two-year anniversary of our pre-alpha launch. (Did you know "grappa" comes before "alpha?" Cheers.)
FeedBurner was born from jets the belief that syndication is the vital channel for publishers of all sizes to distribute their content on a truly level playing field, and that a single service to manage this task's complexity can serve those publishers very well. We have stayed true to this belief by listening and responding to publishers every day since launch. Growing up fast on the mean streets of Web 2.0, we've experienced a major application site redesign, added rafts of new features and partnered with other cool services to bring you the best feed management we can provide.
Of course, FeedBurner owes its growth to its publishers' enthusiastic adoption of our services. The time has zipped by in dog years, and that's not just because of our tireless retrieval and delivery of all kinds of shiny content. Since it is the Year of the Dog, after all, we're going to say we feel more like 14. Thanks for helping us grow up so quickly — but don't think we're done learning new tricks just yet.