截至2005年6月17日:gRaSSland中的RSS条目共230111篇 种子1035个
今天利用Cyril的抓取:RSS种子增加到4406个。经过确认,其中不同的数据源数量为2055个,和8fang.net目前的24k个还有数量级的差别。
方法:
在crawler表中将校验过的RSS种子:
select url from crawler_link where rss =1 into outfile '/tmp/rss.list';
将能正常访问的RSS汇总:根据日志找出24小时内能正常访问的RSS
awk '{print $1}' fetch_rss.*.log |grep http > rss_old
合并新旧RSS:
cat /tmp/rss.list ./rss_list |sort |uniq > rss_new
利用一个脚本:生成fetch_rss.sh
./gen_list.sh
格式化网络是一个不可避免的趋势, Google 利用现有的品牌来进行推广他的sitemap (网站更新地图), 是一个google从主动角色到网站为主动角色的变换.
搜索引擎的主动性将由此转嫁到网站主并且"要求,希望"网站主来积极的配合, Don't be Evil 的口号的风险越来越高.
另外的思考:
sitemap 和blog的 rss 又有什么本质的区别呢?