最近sf.net的CVS库的访问有些更新,原先从cvs.sourceforge.net同步的代码现在要改成通过projectname.cvs.sourceforge.net了。所以如果原先有AWStats代码通过cvs进行更新,需要将CVS/Root文件改成awstats.cvs.sourceforge.net,(或者重新导出)。
仍在cvs中的6.6:从robots.pm和search_engines.pm的更新日志中就可以发现去年下半年以来针对各种robots/RSS reader的统计和各种搜索引擎的统计是越来越丰富了(甚至区分了雅虎美国的蜘蛛Slurp和雅虎中国的蜘蛛Slurp China),今天的统计输出:
53 个机器人* 文件数 字节 最近参观日期
Yahoo Slurp 8750+183 60.60 M字节 2006年 七月 01日 23:59
Yahoo! Slurp China 7032+120 40.09 M字节 2006年 七月 01日 23:59
而来自referer spam的列表也已经有3132条记录了,部分的统计项目(蜘蛛/搜索引擎)都增加了官方网站的链接,但是明显国外开发人员不是很了解中国目前的情况,在很多统计项目中仍然有些落后于实际的情况:比如将TencentTraveler当成蜘蛛,没有计入来自sogou soso等新的搜索引擎的来源等。根据cvs版本中的配置重新更新后的文件:lib/robots.pm和search_engines.pm可以直接下载。
效果可以看看这里: 用户名 awstats 密码 awstats
http://www.chedong.com/cgi-bin/awstats/awstats.pl?config=chedong
以下是更新内容:也向AWStats项目提交了patch 希望有人能帮忙“顶”一下。
https://sourceforge.net/tracker/?func=detail&aid=1384243&group_id=13764&atid=313764
https://sourceforge.net/tracker/?func=detail&aid=745359&group_id=13764&atid=313764
Index: robots.pm
===================================================================
RCS file: /cvsroot/awstats/awstats/wwwroot/cgi-bin/lib/robots.pm,v
retrieving revision 1.43
diff -r1.43 robots.pm
100d99
< # added TencentTraveler
180,181d178
< # added sogou spider http://corp.sohu.com/20051130/n240842344.shtml
< # added sogou test http://corp.sohu.com/20051130/n240842344.shtml
472a470,472
> 'iaskspider',
> 'hl_ftien_spider',
> 'sogou',
835d834
< 'tencenttraveler', # Must be before msiecrawler
899,900d897
< 'sogou\sspider',
< 'sogou\stest',
1125a1123,1125
> 'iaskspider','Sina Iask Spider',
> 'hl_ftien_spider','Hylanda',
> 'sogou','Sogou Spider',
1463d1462
< 'tencenttraveler','TencentTraveler', # Must be before msiecrawler.
1527,1528d1525
< 'sogou\sspider','sogou spider',
< 'sogou\stest','sogou test',
Index: search_engines.pm
===================================================================
RCS file: /cvsroot/awstats/awstats/wwwroot/cgi-bin/lib/search_engines.pm,v
retrieving revision 1.36
diff -r1.36 search_engines.pm
184c184,190
< 'baidu\.com','search\.sina\.com','search\.sohu\.com', 'sogou\.com',
---
> 'baidu\.com',
> 'iask\.com',
> '\.3721\.com',
> '\.163\.com',
> 'soso\.com',
> 'zhongsou\.com',
> 'sogou\.com',
350,351c356,360
< 'search\.sina\.com','sina',
< 'search\.sohu\.com','sohu',
---
> 'iask\.com','iask',
> '\.3721\.com','3721',
> '\.163\.com','netease',
> 'soso\.com','soso',
> 'zhongsou\.com','zhongsou',
556c565,571
< 'baidu','word=', 'sina', 'word=', 'sohu','word=', 'sogou', 'query=',
---
> 'baidu','(bs|wd|word)=',
> 'iask','(_searchkey|k)',
> '3721','(p|name)=',
> 'netease','q=',
> 'soso','q=',
> 'zhongsou','word=',
> 'sogou', 'query=',
724c739,745
< 'baidu','Baidu', 'sina','Sina', 'sohu','Sohu', 'sogou','Sogou',
---
> 'baidu','Baidu',
> 'iask','Iask',
> '3721','3721',
> 'netease', 'NetEase',
> 'soso','SoSo',
> 'zhongsou','ZhougSou',
> 'sogou', 'SoGou',
版权声明:可以转载,转载时请务必以超链接形式标明文章 [AWStats]6.6中的蜘蛛和搜索引擎数据库更新 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001160.html
Comments
改了之后好像没看出来有什么区别?
而且我diff看到更改了的多项目比上面多得多呀!(我下的是awstats-6.5版本)。
ps:
请教一下,你的GeoIP City是怎么做的?
由: joecen 发表于 2006年07月06日 下午06时51分
哦,原来city也有免费的dat,我以为都是要收钱都呢!
由: joecen 发表于 2006年07月08日 晚上10时57分
有没有蜘蛛程序下载
由: 123 发表于 2006年10月30日 下午06时40分