AWStats中的未知浏览器/SPIDER的发现机制


很久以来,AWStats统计中的浏览器信息一直让我非常不解的是未知浏览器的流量比例一直很高,最近半年以来一直在10-20%左右。
浏览器 离线浏览器(网页抓取) 文件数 百分比
MS Internet Explorer 否 222874 65.3 %
Firefox 否 43591 12.7 %
Netscape 否 25954 7.6 %
Potu (RSS Reader) 否 14209 4.1 %
无法得知 ? 11422 3.3 %
Mozilla 否 5508 1.6 %
GreatNews (RSS Reader) 否 5246 1.5 %
Opera 否 4323 1.2 %
BonEcho (Firefox 2.0 development) 否 1650 0.4 %
FeedDemon (RSS Reader) 否 1435 0.4 %
其他 4710 1.3 %

按理说未知浏览器流量应该<5%的,但是未知浏览器具体是那些,还是需要手工去grep 日志发现。最近才发现原来AWStat中的无法得知都是可以点击的,点击进入后,就能看到流量最大的一些未知浏览器的特征User Agent信息:原来是越来越多的RSS阅读器(在线的和客户端的)和蜘蛛,而有了这个统计:就可以将一些已知特征的浏览器加入到robots.pm和browser.pm中了。

例举如下:大部分都遵循了 [浏览器名称] [版本号] [网站网址] [当前feed的订阅人数] 这样的格式
Feedpath/1.0 (http://feedpath.jp; 2 subscribers)
RBLOG Feedeater 1.0
AttensaOnline/1.0 (http://www.attensa.com; 1 subscribers)
JetBrains Omea Reader 2.1.2 (http://www.jetbrains.com/omea/reader/)
Feedshow/1.0 (http://www.feedshow.com; 1 subscriber)
ReadOnline.Info rss checker. http://readonline.info
NewsAlloy/1.1 (http://www.NewsAlloy.com; 12 subscribers)
Rome Client (http://tinyurl.com/64t5n) Ver: 0.7
Peoplefeeds/1.0 http://peoplefeeds.com/
CFMX Agent
Netvibes (http://www.netvibes.com/; 81 subscribers)
Drupal ( http://drupal.org/)
Microsoft Office Protocol Discovery
showlife 0.7 ( http://showlife.sf.net/)
FEEDBRINGER/0.1 (http://feedbringer.net/; 1 subscribers)
JetBrains Omea Reader 2.1.4 (http://www.jetbrains.com/omea/reader/)
FeedLook Service
HanRSS/1.0 (http://www.hanrss.com; 1 subscriber)
KTX Reader3
Maxthon
kb.Rmail (http://www.r-mail.org; 2 subscribers)
FeedLounge (http://my.feedlounge.com/)
iSiloX/4.25 Windows/32
LiteFeeds/1.0
endo/1.0 (Mac OS X; ppc i386; http://kula.jp/endo)
Drupal ( http://www.drupal.org/)
Strategic Board Bot
xv onsswdvcwxOdO9opmcfybrsn
JetBrains Omea Reader 2.0 Release Candidate 8 (http://www.jetbrains.com/omea/reader/)
rss-bot/1.0 (http://www.plazoo.com)
Netvibes (http://www.netvibes.com/; 30 subscribers)
http://www.searchfull.net/
rss2email/2.54 http://www.aaronsw.com/2002/rss2email/
IP*Works! V5 HTTP/S Component - by /n software - www.nsoftware.com

而AWStats原有对浏览器和蜘蛛的定义还是和实际情况有些出入的:
1虽然发现了potu的rss阅读器,但是目前的识别代码不对,
2 将Lilina和gougou等在线阅读器加入到了robots.pm中,感觉服务器端的

目前未知浏览器的流量已经从15%下降到了3%左右。

diff -r1.53 browsers.pm
19d18
< # lilina http://lilina.sourceforge.net/ (rss)
133d131
< 'lilina',
139c137
< 'potu_rss\-reader',
---
> 'potu',
316d313
< 'lilina','<a href="http://lilina.sourceforge.net/" title="Browser home page [new window]" target="_blank">lilina (RSS Reader
)</a>',
322c319
< 'potu_rss\-reader','<a href="http://www.potu.com/" title="Potu Rss-Reader home page [new window]" target="_blank">Potu (RSS
Reader)</a>',
---
> 'potu','<a href="http://www.potu.com/" title="Potu Rss-Reader home page [new window]" target="_blank">Potu (RSS Reader)</a>'
,
527d523
< 'lilina', 'rss',
533c529
< 'potu_rss\-reader', 'rss',
---
> 'potu', 'rss',

作者:车东 发表于:2006-07-07 15:07 最后更新于:2008-05-23 09:05
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于2006年07月07日 下午03时50分的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 FireFox的自动更新 1.5.0.4 => 1.5.0.5

此 Blog 的后一篇日记是 慎用DreamHost

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36