其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;
简单比较一下传统的BBS和Blog Wiki之间的发布模式:
论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。
- web - ?Forum=1 - ?post=1 |- ?post=2 |- ?post=5 - ?Forum=2 - ?post=4 |- ?post=22 |- ?post=8
Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档 BLOG: Better Listing On Google
- index - post10.html |- post9.html |- monthly_archive - post8.html |- post7.html |- category_archive - post8.html |- post2.html由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。邮件列表归档和blog的发布结构非常像:邮件列表归档也有按时间归档的机制,并且使用permalink,
WIKI完全扁平的发布格式,内容之间链接/引用丰富。
|- topic1 -> topic2 -> topic3 |- topic2 -> topic3 |- topic3 -> topic2 -> topic1
在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。
rss.xml - post10.html |- post9.html |- post8.html什么是Tag:
和原有的固定分类相比,tag可以提供一个更灵活的“多对多”类聚方法,在自动分类实现难度很高的情况下,让作者/编辑在发布内容的时候附上几个关键词,可以帮助内容之间实现更丰富的引用。关键词越多,类聚就越精确。很多blogger之间还使用一些特殊制造出来的关键词,利用technorati这样的blog引擎实现在更大空间内的聚合。 什么是PermaLink:
PermaLink给搜索引擎和其他应用一个承诺:在未来很长一段时间内,这个链接和其对应的内容是稳定的。搜索引擎也不喜欢带有复杂参数的动态链接,因为 foo.php?a=1&b=2和foo.php?b=2&a=1 可能是一个页面。搜索引擎更希望索引 foo/a/b 这样的稳定内容链接。而且尽可能直接将用户导向到他需要的内容页,而不是内容经常变换的首页/索引页。
数字截至2005年底:原始数据
WikiPedia上编辑超过10篇的用户共2118人。目前WikiPedia上中文条目共5万多,每条长度平均在2.6k,其中长度在2k以上条目占11%。
内部链接是1M个,链接到其他语言的条目的个数是37万个,链接到外面网站的个数是46k个。
内部的链接密度:
平均每个条目和其他条目之间的链接个数
100万/5万=20个。
由于内部内容之间良好的引用和链接设计,搜索引擎的蜘蛛能在4层之内遍历到的网站的内容:20^4 = 16万
而后台的统计上可以看到:各个引擎的抓取都非常频繁和深入
搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
Googlebot 89303+15 296.35 M字节 2006年 三月 04日 23:54
BaiDuSpider 51499+3 1.10 G字节 2006年 三月 04日 16:24
Yahoo Slurp 13122+705 97.86 M字节 2006年 三月 04日 23:59
MSNBot 12434+85 244.40 M字节 2006年 三月 04日 23:57
中文网的每天PV为15万,独立用户1.5万左右。外部来源几乎完全来自搜索引擎,而包含英文网站在内的wikipedia.org已经成为全球第22位的 http://www.alexa.com/data/details/traffic_details?q=&url=wikipedia.org
从日志统计来看:
http://blog.cnblog.org/cgi-bin/awstats/awstats.pl?config=wikipedia
wikipedia被搜索引擎搜索到的有千个关键词,每天的访问量在10万PV/1万人次左右。
用以搜索的短语 (前 10)
13747 个不同的关键字句 搜索 百分比
繁体字 2121 5.8 %
少年阿宾 1242 3.4 %
色情电影 1076 2.9 %
维基百科 483 1.3 %
维基 259 0.7 %
阴毛 187 0.5 %
海伦.凯勒 162 0.4 %
海伦 凯勒 156 0.4 %
美少女战士 152 0.4 %
奇幻小说 139 0.3 %
其他短语 30041 83.4 %
关键词的分布较广泛:top 10关键词流量占总体来源关键词不到20%。 作者:车东 发表于:2006-03-05 22:03 最后更新于:2007-11-09 10:11
版权声明:可以转载,转载时请务必以超链接形式标明文章 Wiki is flat 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001129.html
Comments
顺便提一下,向Google提交了sitemap后,受益菲浅,这对那些先天结构不合理的网站绝对是福音
由: Wild Green 发表于 2006年03月09日 下午02时22分
你好,很高兴认识你,找到了你的博客。我通过csdn上的朋友知道了你的博客地址。我是电子工业出版社博文视点的,我们最近出了一本新书《代码大全》第二版,您或许知道这本书曾经的影响力。我的一些朋友,孟岩,方舟他们都阅读过此书,也为此书写了书评。因此,为了这本书被更多的醉心与程序的程序员们读到,您也能给此书写一篇书评或者您对此书的一些感想吗?我的邮件地址给您附上了,希望能您的回信。以后我们电工有好的图书,我们都回及时告诉您。谢谢。
祝 好
由: 落落 发表于 2006年03月14日 下午01时54分
你写的很好,不像有个叫王少磊的,光会seo。
由: 你的blog不错 发表于 2006年03月17日 上午11时06分