前2天BlogLines闹水管工的时候,尝试将BlogLines上的RSS书签通过OPML迁移到了NewsGator上:NewsGator的确有很多独到之处,通过汇总后的RSS,每篇BLOG都有反相连接(incoming link)的统计:
而每天被反相连接最多的文章就成了热点:
一些感受:
1 RSS订阅服务:有了OPML用户切换服务的成本很低;
2 Blogger的Ego Surfering的倾向很严重:也是对搜索引擎服务非常敏感的一群
卢亮以前改造的支持中文的referrer.cgi在很短时间就部署在了BoSoo.com2万多个Blogger用户的网站上:其中来自搜索引擎的关键词来源分析非常有用,以至于后来BoSoo成为了专门用于搜索:搜索引擎referer关键词的搜索引擎。
3 估算一下RSS订阅服务所需要的技术:
蜘蛛(Feed Crawler): BlogLines有2,3百万个FEED,要保持这些FEED的小时级同步更新,其FEED Cralwer的智能性/分布式是需要很多开发量的,最近不是有统计吗:真正更新频度较高的只占13%。
存储: 5亿个文章(Entry),平均每篇文章4k字节计算:存储就需要2000G=2T
索引和检索:RSS显示要保证速度FEED一定是在内存里进行检索和:200万FEED,每个FEED最新10条,每条记录4k 这样在内存中的FEED就需要2m * 10 * 4k = 80G 每台机器2G内存计算:通过动态缓存和分布设计,保证最常被订阅的top 20%速度足够快,可能用10台服务器做FEED缓存就够了。
版权声明:可以转载,转载时请务必以超链接形式标明文章 NewGator: 带反相连接统计的RSS订阅服务和Bloglines的成本分析 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/000919.html
Comments
现在bloglines好了,速度很快
你不使用lilina的吗
由: undersound 发表于 2005年08月05日 下午03时46分