又到了年终小结的时候了:
chedong.com:
网站大部分流量来源仍然是Google/Baidu。
不过今年的热门主题是:spoolsv和脑筋急转弯,完全是歪打正着。
2006最常用的几个软件和服务基本上和2005年的差不多,更多的是改进和熟悉使用。
在工具栏上增加了2个常用的https服务:GMail和GReader。
GMail:
把 @chedong.com邮件先迁移到了DreamHost(先过滤一部分垃圾邮件),然后转发给GMail。
GReader:
GReader今年的改版回归了树型,速度上大大超越BlogLines。而抓虾很有潜力的是digg功能:RSS阅读和DIGG发掘机制的结合是未来超越单纯的RSS阅读和纯DIGG服务的方向。
按此阅读全文 "年终总结:2006 chedong.com 年终小结" »
上个月底29日的统计发现当天流量超过了2G(平时都是低于1G的):根据来源IP发现了蜘蛛,信息: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
本月截至昨天的流量统计: QihooBot的流量排在第一,加号后面是蜘蛛robots.txt的请求次数
QihooBot 10035 3.58 G字节 2007年 一月 03日 23:58
Yahoo! Slurp China 4586+33 8.41 M字节 2007年 一月 03日 23:59
Googlebot 4165+21 19.36 M字节 2007年 一月 03日 23:59
Sina Iask Spider 3544+1 16.18 M字节 2007年 一月 03日 15:46
MSNBot 3028+163 39.05 M字节 2007年 一月 03日 23:58
Nutch 2531+3 89.02 M字节 2007年 一月 03日 23:43
Yahoo Slurp 1879+341 9.50 M字节 2007年 一月 03日 23:59
发现Yahoo Slurp对于网站的请求越来越友好了,大量的请求都是304检查文件是否更新过;
按此阅读全文 "流量统计:QihooBot来过 CollapsarDEEP" »
正则表达式用了几年了,本以为这个问题很简单:把所有查询关键词中纯英文(包括数字)的滤出来;但是折腾了一下午才总算找到了以下解决方法:
iconv -f gbk -t utf-8 query_list |egrep -e "^[a-z0-9]*$"
1 为什么需要用utf-8: 如果直接对gbk编码的文字进行grep会由于编码中的交叉而滤出很多中文;
2 为什么需要用egrep: egrep=grep -E 就是正则表达式支持扩展字符集,扩展的正则支持用高八位字符;
关键:先将文本强制转换成UTF-8,然后利用egrep。
适用环境:Unix命令行模式下的grep;
有更简单的方法吗:请留言……
按此阅读全文 "如何通过正则表达式区分中英文" »
以前介绍过 sort -m <(/bin/zcat /web1/access_log.20070120.gz) <(/bin/zcat /web2/access_log.20070120.gz) 对多台服务器上的日志进行排序合并,但是最近发现有时候cronolog截取日志并不干净,就是说按天截断的时候,还是有可能出现几条跨天的日志记录。March 31 => April 1时候日志排序倒错的可能性还是存在的。
最近才知道知道sort 还有-M模式,是可以对有英文月份的字段进行排序的:
-M An initial string, consisting of any amount of white space, fol-
lowed by three letters abbreviating a month name, is folded to
UPPER case and compared in the order `JAN' < `FEB' < ... <
`DEC.' Invalid names compare low to valid names.
这样就不会在 March => April 的时候出现排序倒错的问题了。
更可靠的一个工具就是logtools中的:clfmerge,合并速度比较快,而且对于日志跨天也没有问题。
按此阅读全文 "多个服务器日志的排序合并: clfmerge" »
Linux上很多好工具要解决的问题(需求)可能别人多年前就也遇到过了,但别人不告诉我的话我就根本不知道它存在。第一次知道
MTR还是在几年前和其他公司的工程师沟通XML接口速度问题的时候学到的,当时对方发来这样一个报表:
Host Loss% Snt Last Avg Best Wrst StDev
1. 60.195.249.1 0.0% 41 0.3 2.2 0.3 71.5 11.1
2. 202.99.57.129 0.0% 41 0.3 0.3 0.2 1.5 0.2
3. 202.99.57.9 0.0% 41 0.7 19.9 0.6 189.6 46.8
4. 221.239.18.133 0.0% 41 3.2 3.4 3.2 3.7 0.1
5. 221.239.7.49 0.0% 41 3.0 2.8 2.7 3.2 0.1
6. 221.238.222.209 0.0% 41 2.7 14.2 2.7 131.5 29.9
7. 202.97.34.225 0.0% 41 22.7 23.0 22.6 29.0 1.0
8. 202.97.37.53 0.0% 41 22.7 34.5 22.6 180.6 37.1
9. 202.97.33.10 0.0% 41 23.1 22.9 22.7 23.6 0.2
10. 202.97.33.54 0.0% 40 24.4 31.6 23.1 44.9 6.0
11. 202.97.4.46 0.0% 40 58.0 58.3 58.0 60.8 0.4
12. 216.239.47.237 12.5% 40 188.2 189.2 188.0 204.6 2.8
13. 72.14.239.13 10.0% 40 191.7 191.8 191.1 193.5 0.5
14. 72.14.233.55 7.7% 40 192.0 191.4 190.7 192.2 0.4
15. 72.14.233.118 12.5% 40 242.8 243.1 242.4 244.8 0.6
16. 72.14.236.183 7.5% 40 243.7 243.5 242.3 250.9 1.6
72.14.232.113
17. 66.249.94.118 22.5% 40 242.7 247.9 242.7 255.7 4.5
72.14.236.13018. eh-in-f99.google 10.0% 40 242.7 243.3 242.6 246.0 0.6
从搜索前端服务器到Google的XML接口之间的路由,和各个路由点的响应时间(包括最短,最长,平均)及丢包率一目了然。
利用报表中的提示搜索了一下,发现了
mtr这个工具,以前需要多个
ping和
traceroute 命令实现的统计,用mtr集成在了一起。
WinMTR就是MTR工具的Windows窗口客户端,非常适合Windows用户做路由跟踪。
下载地址:winmtr.sourceforge.net
按此阅读全文 "MTR和WinMTR的下载和使用" »
在我订阅的feed中,经常可以看到 links for yyyy-mm-dd 和昨日收藏这样的标题, 都是FeedBurner中合并的作者的del.icio.us和365key收藏. 尤其是在Bloglines和Google Reader/抓虾中订阅了大量的blog以后,浏览都会设置成只看标题, 这时候links for yyyy-mm-dd 和昨日收藏这样的标题对于快速浏览就没有什么信息了。以下是在GReader中每天链接汇总模式和条目列表模式订阅效果对比:
按此阅读全文 "喜欢 links for yyyy-mm-dd 和昨日收藏 这样的标题吗?" »