NewGator: 带反相连接统计的RSS订阅服务和Bloglines的成本分析


前2天BlogLines闹水管工的时候,尝试将BlogLines上的RSS书签通过OPML迁移到了NewsGator上:NewsGator的确有很多独到之处,通过汇总后的RSS,每篇BLOG都有反相连接(incoming link)的统计:
newsgator-incoming.png

而每天被反相连接最多的文章就成了热点:
newsgator_buzz.png

一些感受:
1 RSS订阅服务:有了OPML用户切换服务的成本很低;
2 Blogger的Ego Surfering的倾向很严重:也是对搜索引擎服务非常敏感的一群
卢亮以前改造的支持中文的referrer.cgi在很短时间就部署在了BoSoo.com2万多个Blogger用户的网站上:其中来自搜索引擎的关键词来源分析非常有用,以至于后来BoSoo成为了专门用于搜索:搜索引擎referer关键词的搜索引擎。
3 估算一下RSS订阅服务所需要的技术:
蜘蛛(Feed Crawler): BlogLines有2,3百万个FEED,要保持这些FEED的小时级同步更新,其FEED Cralwer的智能性/分布式是需要很多开发量的,最近不是有统计吗:真正更新频度较高的只占13%
存储: 5亿个文章(Entry),平均每篇文章4k字节计算:存储就需要2000G=2T
索引和检索:RSS显示要保证速度FEED一定是在内存里进行检索和:200万FEED,每个FEED最新10条,每条记录4k 这样在内存中的FEED就需要2m * 10 * 4k = 80G 每台机器2G内存计算:通过动态缓存和分布设计,保证最常被订阅的top 20%速度足够快,可能用10台服务器做FEED缓存就够了。

作者:车东 发表于:2005-08-05 11:08 最后更新于:2007-07-31 09:07
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

引用通告

以下是前来引用的链接: NewGator: 带反相连接统计的RSS订阅服务和Bloglines的成本分析:

» Web服务的成本分析:低成本,做你喜欢的事儿 来自 车东[Blog^2]
前2天在桑林志上看到DreamHost的主机租用方式:桑林志 � CPU usage limit 原来是基于每个客户占用的主机CPU的时间:每个虚拟主机客户每天不能超过40分钟。这让我立刻联想到了Sun的CPU 1$/小时的... [阅读更多细节]

» 推荐:鲜果RSS阅读器 来自 车东[Blog^2]
已经将GREADER上所有的FEED都导入鲜果了,我最喜欢鲜果的几点是: 1 中... [阅读更多细节]

Comments

现在bloglines好了,速度很快
你不使用lilina的吗

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)