[AWStats]6.6中的蜘蛛和搜索引擎数据库更新


最近sf.net的CVS库的访问有些更新,原先从cvs.sourceforge.net同步的代码现在要改成通过projectname.cvs.sourceforge.net了。所以如果原先有AWStats代码通过cvs进行更新,需要将CVS/Root文件改成awstats.cvs.sourceforge.net,(或者重新导出)。

仍在cvs中的6.6:从robots.pm和search_engines.pm的更新日志中就可以发现去年下半年以来针对各种robots/RSS reader的统计和各种搜索引擎的统计是越来越丰富了(甚至区分了雅虎美国的蜘蛛Slurp雅虎中国的蜘蛛Slurp China),今天的统计输出:
53 个机器人* 文件数 字节 最近参观日期
Yahoo Slurp 8750+183 60.60 M字节 2006年 七月 01日 23:59
Yahoo! Slurp China 7032+120 40.09 M字节 2006年 七月 01日 23:59
而来自referer spam的列表也已经有3132条记录了,部分的统计项目(蜘蛛/搜索引擎)都增加了官方网站的链接,但是明显国外开发人员不是很了解中国目前的情况,在很多统计项目中仍然有些落后于实际的情况:比如将TencentTraveler当成蜘蛛,没有计入来自sogou soso等新的搜索引擎的来源等。根据cvs版本中的配置重新更新后的文件:lib/robots.pmsearch_engines.pm可以直接下载。
效果可以看看这里: 用户名 awstats 密码 awstats
http://www.chedong.com/cgi-bin/awstats/awstats.pl?config=chedong

以下是更新内容:也向AWStats项目提交了patch 希望有人能帮忙“顶”一下。
https://sourceforge.net/tracker/?func=detail&aid=1384243&group_id=13764&atid=313764
https://sourceforge.net/tracker/?func=detail&aid=745359&group_id=13764&atid=313764

Index: robots.pm
===================================================================
RCS file: /cvsroot/awstats/awstats/wwwroot/cgi-bin/lib/robots.pm,v
retrieving revision 1.43
diff -r1.43 robots.pm
100d99
< # added TencentTraveler
180,181d178
< # added sogou spider http://corp.sohu.com/20051130/n240842344.shtml
< # added sogou test http://corp.sohu.com/20051130/n240842344.shtml
472a470,472
> 'iaskspider',
> 'hl_ftien_spider',
> 'sogou',
835d834
< 'tencenttraveler', # Must be before msiecrawler
899,900d897
< 'sogou\sspider',
< 'sogou\stest',
1125a1123,1125
> 'iaskspider','Sina Iask Spider',
> 'hl_ftien_spider','Hylanda',
> 'sogou','Sogou Spider',
1463d1462
< 'tencenttraveler','TencentTraveler', # Must be before msiecrawler.
1527,1528d1525
< 'sogou\sspider','sogou spider',
< 'sogou\stest','sogou test',

Index: search_engines.pm
===================================================================
RCS file: /cvsroot/awstats/awstats/wwwroot/cgi-bin/lib/search_engines.pm,v
retrieving revision 1.36
diff -r1.36 search_engines.pm
184c184,190
< 'baidu\.com','search\.sina\.com','search\.sohu\.com', 'sogou\.com',
---
> 'baidu\.com',
> 'iask\.com',
> '\.3721\.com',
> '\.163\.com',
> 'soso\.com',
> 'zhongsou\.com',
> 'sogou\.com',
350,351c356,360
< 'search\.sina\.com','sina',
< 'search\.sohu\.com','sohu',
---
> 'iask\.com','iask',
> '\.3721\.com','3721',
> '\.163\.com','netease',
> 'soso\.com','soso',
> 'zhongsou\.com','zhongsou',
556c565,571
< 'baidu','word=', 'sina', 'word=', 'sohu','word=', 'sogou', 'query=',
---
> 'baidu','(bs|wd|word)=',
> 'iask','(_searchkey|k)',
> '3721','(p|name)=',
> 'netease','q=',
> 'soso','q=',
> 'zhongsou','word=',
> 'sogou', 'query=',
724c739,745
< 'baidu','Baidu', 'sina','Sina', 'sohu','Sohu', 'sogou','Sogou',
---
> 'baidu','Baidu',
> 'iask','Iask',
> '3721','3721',
> 'netease', 'NetEase',
> 'soso','SoSo',
> 'zhongsou','ZhougSou',
> 'sogou', 'SoGou',

作者:车东 发表于:2006-07-02 11:07 最后更新于:2007-04-22 21:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

改了之后好像没看出来有什么区别?
而且我diff看到更改了的多项目比上面多得多呀!(我下的是awstats-6.5版本)。

ps:
请教一下,你的GeoIP City是怎么做的?

哦,原来city也有免费的dat,我以为都是要收钱都呢!

有没有蜘蛛程序下载

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36