虽然AWStats中提供了蜘蛛的分类统计:
搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
102 个机器人* 文件数 字节 最近参观日期
Sina Iask Spider 41894 520.80 M字节 2006年 九月 09日 07:17
GouGou 34577 920.11 M字节 2006年 九月 09日 12:23
Googlebot 12171+39 212.60 M字节 2006年 九月 09日 12:23
Yahoo Slurp 5775+1275 91.10 M字节 2006年 九月 09日 12:24
GigaBot 5334+233 53.62 M字节 2006年 九月 09日 12:24
Unknown robot (identified by 'robot') 5421+6 71.46 M字节 2006年 九月 09日 12:17
Lilina 5278 76.67 M字节 2006年 九月 09日 12:22
MSNBot 4075+217 52.31 M字节 2006年 九月 09日 12:19
Yahoo! Slurp China 3135+460 25.83 M字节 2006年 九月 09日 12:21
Unknown robot (identified by 'crawl') 3431+6 78.98 M字节 2006年 九月 09日 12:23
有汇总后的数据,但是每个蜘蛛具体抓取了那些页面和抓取的频度就无法得知了,利用AWStats的扩展配置,统计也可以详细到每个蜘蛛的具体访问(参考了http://www.antezeta.com/awstats.html上的配置样例)。
注意:配置完Extra后可能会遇到以下这样的警告:
Phase 2 : Now process new records (Flush history on disk after 20000 hosts)...
Error: The number of values found for extra section 5 has grown too large.
In order to prevent awstats from using an excessive amount of memory, the number
of values is currently limited to 500. Perhaps you should consider
revising extract parameters for extra section 5. If you are certain you
want to track such a large data set, you can increase the limit by setting
ExtraTrackedRowsLimit in your awstats configuration file.
如果扩展配置统计的条目较多,比如:蜘蛛抓取的不同URL的个数很多,就需要在全局扩大一下ExtraTrackedRowsLimit这个参数,这个参数不像其他参数一样需要加编号,缺省最多统计500个项目,我扩大到了2万,ExtraTrackedRowsLimit=20000
完整设置如下:
ExtraSectionName5="Google crawls - Top 50"
ExtraSectionCodeFilter5="200 304"
ExtraSectionCondition5="UA,(.*Googlebot.*)"
ExtraSectionFirstColumnValues5="URL,(.*)"
ExtraSectionFirstColumnFormat5="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes5=PHBL
ExtraSectionAddAverageRow5=0
ExtraSectionAddSumRow5=5
MaxNbOfExtra5=50
MinHitExtra5=1ExtraSectionName6="Baidu crawls - Top 50"
ExtraSectionCodeFilter6="200 304"
ExtraSectionCondition6="UA,(.*Baiduspider.*)"
ExtraSectionFirstColumnValues6="URL,(.*)"
ExtraSectionFirstColumnFormat6="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes6=PHBL
ExtraSectionAddAverageRow6=0
ExtraSectionAddSumRow6=6
MaxNbOfExtra6=50
MinHitExtra6=1ExtraSectionName7="Yahoo Slurp crawls - Top 50"
ExtraSectionCodeFilter7="200 304"
ExtraSectionCondition7="UA,(.*Slurp.*)"
ExtraSectionFirstColumnValues7="URL,(.*)"
ExtraSectionFirstColumnFormat7="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes7=PHBL
ExtraSectionAddAverageRow7=0
ExtraSectionAddSumRow7=7
MaxNbOfExtra7=50
MinHitExtra7=1ExtraSectionName8="MSN crawls - Top 50"
ExtraSectionCodeFilter8="200 304"
ExtraSectionCondition8="UA,(.*msnbot.*)"
ExtraSectionFirstColumnValues8="URL,(.*)"
ExtraSectionFirstColumnFormat8="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes8=PHBL
ExtraSectionAddAverageRow8=0
ExtraSectionAddSumRow8=8
MaxNbOfExtra8=50
MinHitExtra8=1ExtraSectionName9="Sohu crawls - Top 50"
ExtraSectionCodeFilter9="200 304"
ExtraSectionCondition9="UA,(.*sogou.*)"
ExtraSectionFirstColumnValues9="URL,(.*)"
ExtraSectionFirstColumnFormat9="<a href='%s' title='Item Crawled' target='_blank'>%s</a>"
ExtraSectionStatTypes9=PHBL
ExtraSectionAddAverageRow9=0
ExtraSectionAddSumRow9=9
MaxNbOfExtra9=50
MinHitExtra9=1ExtraTrackedRowsLimit=20000
输出样例: 从中可以发现一些蜘蛛的特点,百度只抓取中文内容,而在robots.txt的遵循上,百度是先抓后删,而Google/Yahoo!/MSN则从抓取队列中就会删除。而仍然不知是谁家的outfoxbot似乎对图片更感兴趣……
Google crawls - Top 50作者:车东 发表于:2006-09-10 09:09 最后更新于:2007-04-15 19:04
网页数 文件数 字节 最近参观日期
/blog/ 41 41 272.41 K字节 2006年 九月 09日 20:37
/phpMan.php/phpinfo 4 4 110.92 K字节 2006年 九月 09日 19:27
/u2/lyrics.txt 4 4 221.90 K字节 2006年 九月 09日 20:55
/bbcweb/9.htm 4 4 4.91 K字节 2006年 九月 09日 21:58
/digest/20060907.html 3 3 26.60 K字节 2006年 九月 09日 20:55
/bbcweb/4.htm 3 3 3.15 K字节 2006年 九月 09日 21:58
/tech/lucene.html 3 3 64.98 K字节 2006年 九月 09日 21:59
/ 3 3 124.52 K字节 2006年 九月 09日 20:03
/robots.txt 3 3 696 个字节 2006年 九月 09日 17:49
/phpMan.php/man/perlform/1 3 3 68.74 K字节 2006年 九月 09日 23:47
/sitemap.html 3 3 14.90 K字节 2006年 九月 09日 01:49
/bbcweb/1.htm 3 3 6.34 K字节 2006年 九月 09日 21:58
/tech/ 3 3 14.39 K字节 2006年 九月 09日 20:55
/side_by_side/google_yahoo.html 3 3 1.14 K字节 2006年 九月 09日 20:55
/phpMan.php/man/hotplug/8 3 3 18.57 K字节 2006年 九月 09日 02:55
/phpMan.php/man/perllexwarn/1 3 3 60.44 K字节 2006年 九月 09日 23:47
/tech/acdsee.html 3 3 10.17 K字节 2006年 九月 09日 21:58
/digest/20060906.html 3 3 50.66 K字节 2006年 九月 09日 16:28
/tech/rotate_merge_log.html 3 3 91.96 K字节 2006年 九月 09日 16:56
/digest/20060905.html 3 3 56.00 K字节 2006年 九月 09日 16:28
/phpMan.php 3 3 7.94 K字节 2006年 九月 09日 04:30
/tech/study.html 3 3 19.62 K字节 2006年 九月 09日 21:58
/bbcweb/8.htm 3 3 4.77 K字节 2006年 九月 09日 21:59
/tech/oracle.html 3 3 19.57 K字节 2006年 九月 09日 21:59
/phpMan.php/man/curl_global_init/3 2 2 7.79 K字节 2006年 九月 09日 01:23
/tech/gnu.html 2 2 7.15 K字节 2006年 九月 09日 21:58
/tech/weblog.html 2 2 13.36 K字节 2006年 九月 09日 21:59
/phpMan.php/search/(2) 2 2 124.43 K字节 2006年 九月 09日 04:53
/tech/indent_tools.html 2 2 34.31 K字节 2006年 九月 09日 22:23
/blog/archives/001146.html 2 2 50.66 K字节 2006年 九月 09日 17:40
/phpMan.php/man/grubby/8 2 2 23.48 K字节 2006年 九月 09日 06:03
/bbcweb/10.htm 2 2 3.04 K字节 2006年 九月 09日 21:58
/blog/archives/001164.html 2 2 45.14 K字节 2006年 九月 09日 13:00
/phpMan.php/search/(6) 2 2 16.36 K字节 2006年 九月 09日 04:16
/phpMan.php/man/pdf2dsc/1 2 2 7.96 K字节 2006年 九月 09日 23:25
/phpMan.php/man/req/1 2 2 51.25 K字节 2006年 九月 09日 21:34
/tech/mysql.html 2 2 28.71 K字节 2006年 九月 09日 21:58
/blog/archives/001169.html 2 2 36.42 K字节 2006年 九月 09日 14:07
/phpMan.php/man/iopl/2 2 2 7.90 K字节 2006年 九月 09日 23:25
/phpMan.php/man/stdout/3 2 2 13.16 K字节 2006年 九月 09日 19:27
/phpMan.php/man/charset/1 2 2 4.40 K字节 2006年 九月 09日 04:33
/tech/google_ads.html 2 2 11.53 K字节 2006年 九月 09日 04:11
/phpMan.php/search/(9) 2 2 28.15 K字节 2006年 九月 09日 04:16
/phpMan.php/search/(8) 2 2 126.83 K字节 2006年 九月 09日 04:16
/tech/awstats.html 2 2 39.49 K字节 2006年 九月 09日 21:59
/tech/nat.html 2 2 18.39 K字节 2006年 九月 09日 21:59
/blog/archives/001199.html 2 2 18.38 K字节 2006年 九月 09日 15:45
/rolling_stones/stones/the_rolling_stones.smi 2 2 8.96 K字节 2006年 九月 09日 12:14
/blog/archives/001198.html 2 2 35.09 K字节 2006年 九月 09日 20:55
/phpMan.php/man/isdnctrl/8 2 2 40.42 K字节 2006年 九月 09日 23:32
总数 165 165 2.03 M字节
Baidu crawls - Top 50
网页数 文件数 字节 最近参观日期
/ 8 8 306.07 K字节 2006年 九月 09日 17:22
/robots.txt 4 4 928 个字节 2006年 九月 09日 14:30
/blog/ 4 4 220.84 K字节 2006年 九月 09日 15:34
/linkPopCheck.php 4 4 8.70 K字节 2006年 九月 09日 21:11
/blog/archives/001199.html 4 4 73.53 K字节 2006年 九月 09日 17:22
/phpMan.php 3 3 9.57 K字节 2006年 九月 09日 19:27
/blog/archives/001109.html 2 2 69.52 K字节 2006年 九月 09日 08:34
/tech/google_url.html 1 1 10.40 K字节 2006年 九月 09日 15:34
/blog/archives/001161.html 1 1 17.67 K字节 2006年 九月 09日 14:18
/cgi-bin/mt/mt-atom.cgi/weblog/blog_id=1 1 1 1.07 K字节 2006年 九月 09日 17:55
/blog/archives/000651.html 1 1 12.81 K字节 2006年 九月 09日 18:43
/blog/archives/000638.html 1 1 35.87 K字节 2006年 九月 09日 18:42
/blog/archives/001146.html 1 1 25.33 K字节 2006年 九月 09日 10:38
/blog/archives/000625.html 1 1 22.62 K字节 2006年 九月 09日 18:43
/blog/archives/000220.html 1 1 10.65 K字节 2006年 九月 09日 18:43
/blog/archives/001157.html 1 1 15.73 K字节 2006年 九月 09日 03:37
/digest/20050621.html 1 1 12.36 K字节 2006年 九月 09日 21:11
/blog/archives/000011.html 1 1 24.25 K字节 2006年 九月 09日 07:12
/blog/archives/000454.html 1 1 11.52 K字节 2006年 九月 09日 18:43
/digest/20060120.html 1 1 12.36 K字节 2006年 九月 09日 10:57
/tech/apache_install.html 1 1 12.36 K字节 2006年 九月 09日 01:25
/blog/archives/001052.html 1 1 12.56 K字节 2006年 九月 09日 18:43
/cgi-bin/mt/mt-atom.cgi/weblog/blog_id=1/entry_id=1174 1 1 1.07 K字节 2006年 九月 09日 10:57
/blog/archives/001094.html 1 1 19.27 K字节 2006年 九月 09日 18:43
/blog/archives/000519.html 1 1 16.59 K字节 2006年 九月 09日 18:43
/blog/archives/000950.html 1 1 29.79 K字节 2006年 九月 09日 18:42
/digest/20060908.html 1 1 18.01 K字节 2006年 九月 09日 17:22
/tech/google.html 1 1 12.36 K字节 2006年 九月 09日 15:34
/blog/archives/001164.html 1 1 22.57 K字节 2006年 九月 09日 00:37
/blog/archives/000005.html 1 1 10.27 K字节 2006年 九月 09日 07:12
/blog/archives/001182.html 1 1 16.05 K字节 2006年 九月 09日 03:02
/blog/archives.html 1 1 12.36 K字节 2006年 九月 09日 22:41
/blog/archives/001085.html 1 1 14.31 K字节 2006年 九月 09日 18:43
/blog/archives/001131.html 1 1 27.04 K字节 2006年 九月 09日 11:18
/bbcweb/204.htm 1 1 3.05 K字节 2006年 九月 09日 21:11
/site_search.php 1 1 1.54 K字节 2006年 九月 09日 08:36
/blog/archives/001040.html 1 1 20.35 K字节 2006年 九月 09日 18:43
/blog/archives/001139.html 1 1 24.43 K字节 2006年 九月 09日 18:42
/blog/archives/000859.html 1 1 16.03 K字节 2006年 九月 09日 05:46
/digest/20050926.html 1 1 12.36 K字节 2006年 九月 09日 21:11
/blog/archives/000284.html 1 1 25.01 K字节 2006年 九月 09日 18:43
/blog/archives/2005_12.html 1 1 12.36 K字节 2006年 九月 09日 22:55
/blog/archives/000741.html 1 1 12.36 K字节 2006年 九月 09日 08:35
/blog/archives/000498.html 1 1 10.55 K字节 2006年 九月 09日 18:43
/bbcweb/218.htm 1 1 3.61 K字节 2006年 九月 09日 10:57
/tech/cvs.ppt 1 1 12.34 K字节 2006年 九月 09日 08:40
/blog/archives/000645.html 1 1 14.01 K字节 2006年 九月 09日 18:43
/blog/archives/000632.html 1 1 10.22 K字节 2006年 九月 09日 18:43
/blog/archives/001124.html 1 1 53.21 K字节 2006年 九月 09日 04:14
/blog/archives/001044.html 1 1 13.90 K字节 2006年 九月 09日 08:40
总数 72 72 1.34 M字节
Yahoo Slurp crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 104 104 23.56 K字节 2006年 九月 09日 23:38
/ 16 16 665.58 K字节 2006年 九月 09日 23:36
/blog/archives/001189.html 8 8 102.40 K字节 2006年 九月 09日 22:12
/tech/indent_tools.html 7 7 117.59 K字节 2006年 九月 09日 22:39
/tech/google.html 7 7 251.04 K字节 2006年 九月 09日 23:32
/blog/ 6 6 329.88 K字节 2006年 九月 09日 23:19
/tech/apache_install.html 5 5 90.00 K字节 2006年 九月 09日 23:15
/blog/archives/001196.html 5 5 173.59 K字节 2006年 九月 09日 23:48
/blog/archives/000751.html 5 5 104.12 K字节 2006年 九月 09日 23:21
/blog/archives/001197.html 5 5 174.99 K字节 2006年 九月 09日 22:37
/tech/lucene.html 4 4 136.91 K字节 2006年 九月 09日 23:57
/blog/archives/000828.html 4 4 107.72 K字节 2006年 九月 09日 23:27
/tech/link_pop_check.html 4 4 44.79 K字节 2006年 九月 09日 23:04
/tech/cms.html 4 4 61.17 K字节 2006年 九月 09日 22:13
/tech/awstats.html 4 4 56.19 K字节 2006年 九月 09日 22:58
/linkPopCheck.php 4 4 8.65 K字节 2006年 九月 09日 21:39
/blog/archives/001199.html 4 4 55.15 K字节 2006年 九月 09日 22:14
/blog/archives/000644.html 3 3 81.88 K字节 2006年 九月 09日 19:52
/tech/cvs_card.html 3 3 82.04 K字节 2006年 九月 09日 22:44
/blog/archives/000001.html 3 3 93.52 K字节 2006年 九月 09日 23:23
/blog/archives/001198.html 3 3 35.09 K字节 2006年 九月 09日 22:49
/blog/archives/cat_tech_notes.html 2 2 509.34 K字节 2006年 九月 09日 23:48
/phpMan.php/man/pkgCache::PkgFileIterator 2 2 4.08 K字节 2006年 九月 09日 23:58
/digest/20060908.html 2 2 36.03 K字节 2006年 九月 09日 19:40
/tech/resin.html 2 2 18.64 K字节 2006年 九月 09日 18:24
/blog/archives/000496.html 2 2 32.08 K字节 2006年 九月 09日 18:22
/blog/archives/000741.html 2 2 77.94 K字节 2006年 九月 09日 21:56
/blog/archives/000790.html 2 2 47.28 K字节 2006年 九月 09日 22:03
/phpMan.php/man/FindBin/3 1 1 5.18 K字节 2006年 九月 09日 14:08
/phpMan.php/man/chr/11 1 1 8.74 K字节 2006年 九月 09日 18:47
/phpMan.php/man/Win32::API 1 1 1.98 K字节 2006年 九月 09日 23:02
/phpMan.php/man/ocsp/1ssl 1 1 2.05 K字节 2006年 九月 09日 23:53
/tech/gnu.html 1 1 7.15 K字节 2006年 九月 09日 20:07
/phpMan.php/man/foomatic-datafile/1 1 1 2.01 K字节 2006年 九月 09日 18:21
/phpMan.php/man/pkgCache::PrvIterator 1 1 2.03 K字节 2006年 九月 09日 18:11
/phpMan.php/man/INVARIANT/3 1 1 1.98 K字节 2006年 九月 09日 20:54
/phpMan.php/man/Apache::TestMB 1 1 2.00 K字节 2006年 九月 09日 22:47
/phpMan.php/man/DBM::Deep 1 1 1.98 K字节 2006年 九月 09日 18:34
/phpMan.php/man/Pod::Select 1 1 13.29 K字节 2006年 九月 09日 21:21
/digest/20051218.html 1 1 0 2006年 九月 09日 23:44
/phpMan.php/man/Other::CONST 1 1 1.99 K字节 2006年 九月 09日 23:21
/blog/archives/001146.html 1 1 25.33 K字节 2006年 九月 09日 11:44
/phpMan.php/man/DH_check/3ssl 1 1 2.10 K字节 2006年 九月 09日 16:15
/phpMan.php/man/fxload/8 1 1 11.27 K字节 2006年 九月 09日 19:44
/phpMan.php/man/VOP_LEASE/9 1 1 1.99 K字节 2006年 九月 09日 14:22
/phpMan.php/man/XCopyArea/3x 1 1 1.98 K字节 2006年 九月 09日 14:27
/phpMan.php/man/log/3 1 1 3.07 K字节 2006年 九月 09日 23:28
/digest/20050525.html 1 1 23.48 K字节 2006年 九月 09日 23:41
/phpMan.php/man/Data::Buffer/3 1 1 2.00 K字节 2006年 九月 09日 16:57
/blog/archives/000661.html 1 1 20.83 K字节 2006年 九月 09日 22:28
总数 244 244 3.58 M字节
MSN crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 9 9 2.04 K字节 2006年 九月 09日 20:38
/phpMan.php/man/getpwnam/lgn 3 3 21.21 K字节 2006年 九月 09日 23:45
/phpMan.php/man/CGI::Session 2 2 53.71 K字节 2006年 九月 09日 23:48
/side_by_side/search_form_utf8.html 2 2 1.57 K字节 2006年 九月 09日 19:06
/phpMan.php/man/munlockall/2 1 1 3.39 K字节 2006年 九月 09日 20:07
/ 1 1 6.63 K字节 2006年 九月 09日 16:20
/blog/archives/001083.html 1 1 15.91 K字节 2006年 九月 09日 17:13
/blog/archives/cat_appinstall.html 1 1 98.97 K字节 2006年 九月 09日 19:05
/phpMan.php/man/rpc.nfsd/8 1 1 4.26 K字节 2006年 九月 09日 18:20
/bbcweb/223.htm 1 1 2.48 K字节 2006年 九月 09日 14:26
/blog/archives/001047.html 1 1 19.07 K字节 2006年 九月 09日 17:47
/phpMan.php/man/isdntime/5 1 1 1.94 K字节 2006年 九月 09日 15:09
/phpMan.php/man/SSL_CTX_set_session_cache_mode/3 1 1 8.29 K字节 2006年 九月 09日 20:25
/phpMan.php/man/XML::PerlSAX::DOM 1 1 1.97 K字节 2006年 九月 09日 22:19
/blog/archives/000738.html 1 1 13.47 K字节 2006年 九月 09日 20:38
/phpMan.php/man/unzipsfx/1 1 1 17.98 K字节 2006年 九月 09日 20:45
/phpMan.php/man/mbadblocks/1 1 1 4.64 K字节 2006年 九月 09日 14:10
/phpMan.php/man/wmemchr/3p 1 1 4.37 K字节 2006年 九月 09日 22:51
/blog/archives/000220.html 1 1 10.65 K字节 2006年 九月 09日 14:34
/blog/archives/000208.html 1 1 9.65 K字节 2006年 九月 09日 15:58
/phpMan.php/man/integer/3pm 1 1 11.47 K字节 2006年 九月 09日 22:34
/blog/archives/000550.html 1 1 11.97 K字节 2006年 九月 09日 11:48
/phpMan.php/man/cut/1p 1 1 15.37 K字节 2006年 九月 09日 12:28
/blog/archives/000454.html 1 1 11.52 K字节 2006年 九月 09日 11:58
/phpMan.php/man/adsl-start/8 1 1 3.68 K字节 2006年 九月 09日 22:46
/phpMan.php/man/df/1 1 1 5.58 K字节 2006年 九月 09日 16:00
/phpMan.php/man/mmove/1 1 1 4.82 K字节 2006年 九月 09日 18:36
/blog/archives/2006_03.html 1 1 33.75 K字节 2006年 九月 09日 23:52
/phpMan.php/man/adsl-setup/8 1 1 3.48 K字节 2006年 九月 09日 20:41
/tech/robots.pm 1 1 78.83 K字节 2006年 九月 09日 20:13
/phpMan.php/man/ash/1 1 1 15.46 K字节 2006年 九月 09日 20:56
/blog/archives/001164.html 1 1 22.57 K字节 2006年 九月 09日 17:17
/phpMan.php/man/CGI::Session::ErrorHandler/3pm 1 1 2.11 K字节 2006年 九月 09日 19:57
/phpMan.php/man/sem_open/3p 1 1 9.64 K字节 2006年 九月 09日 23:19
/phpMan.php/man/locale/5 1 1 15.30 K字节 2006年 九月 09日 20:14
/phpMan.php/man/clock/3p 1 1 4.84 K字节 2006年 九月 09日 13:21
/phpMan.php/man/tiffgt/1 1 1 8.38 K字节 2006年 九月 09日 14:40
/blog/archives/001081.html 1 1 14.33 K字节 2006年 九月 09日 18:26
/phpMan.php/man/stime/2 1 1 3.19 K字节 2006年 九月 09日 15:06
/blog/archives/000656.html 1 1 17.83 K字节 2006年 九月 09日 17:33
/tech/google_ads.html 1 1 15.55 K字节 2006年 九月 09日 19:23
/phpMan.php/man/uuid_parse/3 1 1 3.73 K字节 2006年 九月 09日 12:13
/bbcweb/ 1 1 2.40 K字节 2006年 九月 09日 12:45
/phpMan.php/man/SSL_CTX_add_session/3 1 1 4.94 K字节 2006年 九月 09日 21:12
/phpMan.php/man/diskdumpctl/8 1 1 3.28 K字节 2006年 九月 09日 14:55
/phpMan.php/man/passwd/1 1 1 9.06 K字节 2006年 九月 09日 19:43
/blog/archives/000805.html 1 1 20.12 K字节 2006年 九月 09日 17:11
/bbcweb/2.htm 1 1 1.88 K字节 2006年 九月 09日 15:58
/phpMan.php/man/gzcat/1L 1 1 1.93 K字节 2006年 九月 09日 15:15
/phpMan.php/man/string/3 1 1 6.71 K字节 2006年 九月 09日 22:49
总数 62 62 665.90 K字节
Sohu crawls - Top 50
网页数 文件数 字节 最近参观日期
/blog/archives/000955.html 3 3 46.87 K字节 2006年 九月 09日 23:34
/tech/gnu.html 1 1 7.14 K字节 2006年 九月 09日 15:55
/blog/archives/000728.html 1 1 48.14 K字节 2006年 九月 09日 23:00
/blog/archives/000100.html 1 1 15.54 K字节 2006年 九月 09日 19:45
/blog/archives/000012.html 1 1 23.06 K字节 2006年 九月 09日 16:02
/digest/20060701.html 1 1 39.31 K字节 2006年 九月 09日 12:38
/digest/20050823.html 1 1 43.52 K字节 2006年 九月 09日 13:12
/blog/archives/2004_02.html 1 1 48.14 K字节 2006年 九月 09日 20:59
/digest/20060703.html 1 1 45.31 K字节 2006年 九月 09日 20:54
/blog/archives/000646.html 1 1 51.85 K字节 2006年 九月 09日 16:29
/index.php/blog/tech/index.php/side_by_side/google_yahoo.html 1 1 41.31 K字节 2006年 九月 09日 13:27
/blog/archives/001058.html 1 1 70.79 K字节 2006年 九月 09日 11:55
/blog/archives/000267.html 1 1 27.10 K字节 2006年 九月 09日 20:01
总数 15 15 508.09 K字节
OutfoxBot crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 3 3 696 个字节 2006年 九月 09日 15:53
/blog/archives/newsgator_buzz.png 1 5.95 K字节 2006年 九月 09日 15:53
/blog/archives/pairs.png 1 84.68 K字节 2006年 九月 09日 15:01
/blog/archives/firefox-rss.png 1 29.18 K字节 2006年 九月 09日 15:03
/blog/archives/pairs_wikipedia.png 1 84.56 K字节 2006年 九月 09日 13:19
/blog/archives/newsgator-incoming.png 1 5.82 K字节 2006年 九月 09日 15:02
总数 3 8 210.87 K字节
版权声明:可以转载,转载时请务必以超链接形式标明文章 给AWStats增加针对Googlebot/Baiduspider/Yahoo!Slurp/MSNBot的详细统计 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001200.html
Comments
我在计划把 outfoxbot 屏蔽掉。这个爬虫消耗了我很多资源
由: Fenng 发表于 2006年09月11日 下午12时54分
非常不错,我很希望能认识一些做搜索引擎系统架构的朋友,不知道可否推荐几位,谢谢。
由: sharp 发表于 2006年09月13日 下午02时55分
Outfox只知道是国内所为,暂时还没有人认真去查
不过在国外,已经有很多网友开始注意到它了,一个不看robots.txt的“没文化”的爬虫,居然关注robot.txt。
又是一个给中国人丢人的东西,因为它已经不是爬虫,是资源杀手
由: Apol 发表于 2006年09月19日 上午11时48分
请问AWstate有没有好用的开放API?想集成到现有的系统中去。
由: keel 发表于 2006年09月23日 上午09时54分
ExtraSection能不能一天一条数据啊?而不是现在这样累加的值。
由: 监控软件 发表于 2007年02月05日 下午04时01分
Outfox就是网易的有道啊。
yodao.com
这个你们应该知道吧?
看了有道不够文明。
由: 心灵博客 发表于 2007年12月16日 下午06时16分
outfox确实是有道,非常垃圾,俄已经彻底把它屏蔽,该死的乱货!
由: wxyhb 发表于 2008年08月28日 下午04时40分
outfox确实是网易的有道,非常垃圾,我已经彻底把它屏蔽
由: gerry 发表于 2008年08月28日 下午04时41分
有道虽然垃圾,但是最近已经有有道过来的成交用户了。
由: 土坷垃 发表于 2008年09月26日 下午04时06分
这个文章无效了!对于目前的版本已经没有办法配置了!有啥新方法么?
由: 周凯 发表于 2008年12月02日 下午01时48分
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 137.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 138.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 139.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 140.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 141.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 143.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 144.
Semicolon seems to be missing at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 145.
syntax error at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 138, near "ExtraSectionCodeFilter5"
"use" not allowed in expression at /usr/local/awstats/wwwroot/cgi-bin/awstats.pl line 149, at end of line
编辑运行后出错! 555555555555
由: 周凯 发表于 2008年12月03日 上午09时49分