面对疯狂的TrackBack Ping Spam,我最近不得不已经停止了自己BLOG上所有的接收BackTrack Ping功能,并启用了评论的mt-blacklist;而这个月日志统计中也看到了很多莫名其妙的referer spam,不得不将AWStats加上了http认证,防止spider顺着日志统计报表爬到那些网站上去。
今天又遇到WIKI的文件上传盗链,自己网站成了色情网站的图片服务器。
当时情况记录如下:
后台服务器下午2点左右出现了380的高负载,我中间不得不重新启动一次了机器: 重启后发现服务器负载仍然非常高。mysql出现了:'Too many connections'错误,奇怪,平时数据库请求是很少的啊? 在apache服务器error_log日志中找到了异常多的wiki的文件下载请求。由于wakka的每次图片下载都需要经过数据库请求,导致数据库连接数饱满。
后来查看apache日志,通过referer看到这些请求都是来源于一个色情网站的论坛中,沿着wiki的uploade目录找下去:看到了4,5个200k以上的图片(上传时间是下午1点16分前后)。
按此阅读全文 "遭遇图片盗链:wiki成了色情网站的图片服务器" »
用awk命令计算文件中某一列的总和:
awk 'BEGIN{sum=0}{sum+=$1}END{print sum}' data.txt
比较完整的一个例子:
awk -F ',' 'BEGIN{sum=0 ;count=0}{if ($(NF-11) == 2 && $NF == 0 && $3 == "1.6.1_1_1") {sum +=$5; count++;} } END {print "sum="sum" count="count " avg="sum/count}'
说明:
BEGIN{sum=0 ;count=0} 初始化计数器;
END {print "sum="sum" count="count " avg="sum/count} 打印汇总,计数器 和均值;
if ($(NF-11) == 2 && $NF == 0 && $3 == "1.6.1_1_1") {sum +=$5; count++;} 判断倒数第11个字段,判断倒数第一个字段,判断第三个字段(字符串) 第五个字段汇总累加,计数器累加
按此阅读全文 "awk: 计算一列数字的sum" »
最早开发WebLucene时:RSS 2.0数据输出的时间字段是ISO格式:2004-12-25 21:48:09 因此有的RSS解析会出错。正确的应该是这种格式:
<pubDate>Sun, 26 Dec 2004 21:48:09 +0800</pubDate>
查了一下,原来这种时间格式是:rfc822标准,例如 Thu, 21 Dec 2000 16:01:07 +0200
php中有date函数可以非常方便的实现转换: date("r", $rs["PubTime"])
按此阅读全文 "开发RSS2.0接口注意:时间字段必须是rfc 822格式" »
用户可以发布自己在Google新闻上的个性化搜索订阅:
这个功能也是我一直希望Add RSS to My Yahoo!服务能够提供的功能:针对个性化的再发布,方便用户进行信息聚合值后再他人分享。
按此阅读全文 "Google的个性化新闻:可再发布的搜索订阅" »
读到:水木清华BBS的关闭与以往的BBS岁月,想起了前一阵海啸义演时众歌星唱的那首"Across the Universe":
words are flowing out like endless rain into a paper cup,
they slither(1) while they pass, they slip away across the universe
pools of sorrow, waves of joy are drifting through my opened mind,
possessing and caressing me.
jai guru de va om
nothing's gonna change my world,nothing's gonna change my world,
nothing's gonna change my world.nothing's gonna change my world,
按此阅读全文 "Something's gonna change my world" »
最近Google Groups的浏览已经提供了中文界面,用来做自己的留言簿绝对是一个很不错的主意,留言直接可以发送到创建者的GMail邮箱中,可以很方便的在GMail中进行消息跟踪和留言回复,同时又公开发布在Google Groups上。
但是最近也发现了很大的一个问题就是SPAM:由于Google Groups本身就是通过邮件和Groups界面2个途径进行提交。一方面很多垃圾邮件制造者可以方便的获得相应的邮件列表(转发)地址发送垃圾邮件,另外一方面Google Groups是可以设置为对外公开发布的:大量的WEB SPAM会利用这个CMS制造反相链接。
所以最重要的就是将提交由缺省的自动发布改成需要管理员批准:
目前(2005-03-29)Google Groups的后台管理界面还是英文。
按此阅读全文 "利用Google Groups配置留言簿:注意防止SPAM" »
Urchin Web Analytics software and on demand services:Urchin的产品线中很重要的一个是日志分析产品:
Urchin 6 is a new approach to web analytics. One which looks at the entire online process of attracting and converting visitors and retaining customers. Each Urchin 6 report is designed to give you the specific information you need to help visitors find you online, navigate your website, convert into customers, and keep coming back. Urchin 6 On Demand starts at $495/month.
再联想一下:2月份Google成为ICANN顶级域名注册商。
按此阅读全文 "Google收购Urchin" »