很久以来,AWStats统计中的浏览器信息一直让我非常不解的是未知浏览器的流量比例一直很高,最近半年以来一直在10-20%左右。
浏览器 离线浏览器(网页抓取) 文件数 百分比
MS Internet Explorer 否 222874 65.3 %
Firefox 否 43591 12.7 %
Netscape 否 25954 7.6 %
Potu (RSS Reader) 否 14209 4.1 %
无法得知 ? 11422 3.3 %
Mozilla 否 5508 1.6 %
GreatNews (RSS Reader) 否 5246 1.5 %
Opera 否 4323 1.2 %
BonEcho (Firefox 2.0 development) 否 1650 0.4 %
FeedDemon (RSS Reader) 否 1435 0.4 %
其他 4710 1.3 %
按理说未知浏览器流量应该<5%的,但是未知浏览器具体是那些,还是需要手工去grep 日志发现。最近才发现原来AWStat中的无法得知都是可以点击的,点击进入后,就能看到流量最大的一些未知浏览器的特征User Agent信息:原来是越来越多的RSS阅读器(在线的和客户端的)和蜘蛛,而有了这个统计:就可以将一些已知特征的浏览器加入到robots.pm和browser.pm中了。
例举如下:大部分都遵循了 [浏览器名称] [版本号] [网站网址] [当前feed的订阅人数] 这样的格式
Feedpath/1.0 (http://feedpath.jp; 2 subscribers)
RBLOG Feedeater 1.0
AttensaOnline/1.0 (http://www.attensa.com; 1 subscribers)
JetBrains Omea Reader 2.1.2 (http://www.jetbrains.com/omea/reader/)
Feedshow/1.0 (http://www.feedshow.com; 1 subscriber)
ReadOnline.Info rss checker. http://readonline.info
NewsAlloy/1.1 (http://www.NewsAlloy.com; 12 subscribers)
Rome Client (http://tinyurl.com/64t5n) Ver: 0.7
Peoplefeeds/1.0 http://peoplefeeds.com/
CFMX Agent
Netvibes (http://www.netvibes.com/; 81 subscribers)
Drupal ( http://drupal.org/)
Microsoft Office Protocol Discovery
showlife 0.7 ( http://showlife.sf.net/)
FEEDBRINGER/0.1 (http://feedbringer.net/; 1 subscribers)
JetBrains Omea Reader 2.1.4 (http://www.jetbrains.com/omea/reader/)
FeedLook Service
HanRSS/1.0 (http://www.hanrss.com; 1 subscriber)
KTX Reader3
Maxthon
kb.Rmail (http://www.r-mail.org; 2 subscribers)
FeedLounge (http://my.feedlounge.com/)
iSiloX/4.25 Windows/32
LiteFeeds/1.0
endo/1.0 (Mac OS X; ppc i386; http://kula.jp/endo)
Drupal ( http://www.drupal.org/)
Strategic Board Bot
xv onsswdvcwxOdO9opmcfybrsn
JetBrains Omea Reader 2.0 Release Candidate 8 (http://www.jetbrains.com/omea/reader/)
rss-bot/1.0 (http://www.plazoo.com)
Netvibes (http://www.netvibes.com/; 30 subscribers)
http://www.searchfull.net/
rss2email/2.54 http://www.aaronsw.com/2002/rss2email/
IP*Works! V5 HTTP/S Component - by /n software - www.nsoftware.com
而AWStats原有对浏览器和蜘蛛的定义还是和实际情况有些出入的:
1虽然发现了potu的rss阅读器,但是目前的识别代码不对,
2 将Lilina和gougou等在线阅读器加入到了robots.pm中,感觉服务器端的
目前未知浏览器的流量已经从15%下降到了3%左右。
diff -r1.53 browsers.pm作者:车东 发表于:2006-07-07 15:07 最后更新于:2008-05-23 09:05
19d18
< # lilina http://lilina.sourceforge.net/ (rss)
133d131
< 'lilina',
139c137
< 'potu_rss\-reader',
---
> 'potu',
316d313
< 'lilina','<a href="http://lilina.sourceforge.net/" title="Browser home page [new window]" target="_blank">lilina (RSS Reader
)</a>',
322c319
< 'potu_rss\-reader','<a href="http://www.potu.com/" title="Potu Rss-Reader home page [new window]" target="_blank">Potu (RSS
Reader)</a>',
---
> 'potu','<a href="http://www.potu.com/" title="Potu Rss-Reader home page [new window]" target="_blank">Potu (RSS Reader)</a>'
,
527d523
< 'lilina', 'rss',
533c529
< 'potu_rss\-reader', 'rss',
---
> 'potu', 'rss',
版权声明:可以转载,转载时请务必以超链接形式标明文章 AWStats中的未知浏览器/SPIDER的发现机制 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001163.html