« 2007年04月 | (回到Blog入口) | 2007年06月 »

2007年05月 归档

2007年05月02日

awstats统计中过滤trackback spam

MT的trackback关闭了一段时间了,但是即使是404脚本不存在了:上个月仍然收到了trackback请求26万左右(估计占独立用户的5%-10%)。

404 Document Not Found 276101 95.2 % 1.43 G字节
;用了fastcgi,对于系统来说也是一个很高的负载。

而且对于AWStats统计来说:即使是404请求,也是计算到来访的独立用户的,这样会造成很多误差:比如去年10月份的统计,很难想想来自于那些国外机房(美国,日本,丹麦)的流量居然占了top 10 IP来源中的9个,让这个TOP 10 IP来源完全失去了意义。


主机 (前 10) - 全部列出 - 最近参观日期 - 无法反解译的IP地址
主机 : 0 个解译成功, 164470 无法得知(不能反解网域名称)
119778 参观者 GeoIP
Country GeoIP
City 网页数 文件数 字节 最近参观日期
38.98.120.69 United States Washington 9207 9308 438.99 M字节 2006年 10月 31日 23:58
8.11.2.79 United States 无法得知 8961 9058 267.84 M字节 2006年 10月 11日 04:13
220.181.18.77 China Beijing 1278 1278 31.18 M字节 2006年 10月 31日 18:59
61.12.159.237 Japan Kami-meguro 1081 1324 24.45 M字节 2006年 10月 29日 10:44
82.103.132.52 Denmark 无法得知 744 744 9.96 M字节 2006年 10月 31日 03:27
61.149.109.88 China Beijing 734 939 22.79 M字节 2006年 10月 03日 01:25
72.21.39.242 United States Frisco 684 710 17.87 M字节 2006年 10月 31日 10:16
220.189.213.3 China Hangzhou 528 11357 31.71 M字节 2006年 10月 31日 20:54
209.67.217.226 United States Dallas 515 515 12.11 M字节 2006年 10月 31日 23:31
64.27.19.254 United States Los Angeles 508 800 52.20 M字节 2006年 10月 31日 23:37

过滤了404也只是相对接近真实了一点:仍然有大量用于发现trackback侦察机在抓取:

58.25.99.171 China Shanghai 383 536 11.04 M字节 2007年 5 月 02日 23:23
222.210.108.237 China Beijing 263 263 2.15 M字节 2007年 5 月 02日 16:49
69.46.20.87 United States Tampa 162 162 4.18 M字节 2007年 5 月 02日 22:51
66.232.114.68 United States Tampa 152 152 4.12 M字节 2007年 5 月 02日 09:50
69.46.16.231 United States Tampa 146 146 3.86 M字节 2007年 5 月 02日 23:59
66.232.112.56 United States Tampa 110 110 2.99 M字节 2007年 5 月 02日 00:53
206.51.229.7 United States Tampa 110 110 2.87 M字节 2007年 5 月 02日 01:16
66.98.228.48 United States Houston 100 100 2.29 M字节 2007年 5 月 02日 01:16
201.226.51.7 Panama 无法得知 99 129 2.47 M字节 2007年 5 月 01日 11:48
216.246.78.191 United States Chicago 94 94 4.19 M字节 2007年 5 月 02日 23:53


解决方法:在awstats.chedong.conf文件中增加过滤文件配置
1 SkipFiles,过滤所有cgi-bin/mt目录下的访问请求;
2 SkipUserAgents 过滤trackback的空UA侦察机;
配置样例:

SkipFiles="REGEX[^\/cgi-bin\/mt\/]"
SkipUserAgents="-"

按此阅读全文 "awstats统计中过滤trackback spam" »

2007年05月07日

基于邮箱通讯录导入的用户联系圈扩展

有一个很好的通讯录管理功能对于SN用户的扩展来说很重要:最近使用 LinkedIn多了起来,因为LinkedIn提供了直接通过web界面将GMail,Hotmail,Yahoo Mail的通讯录导入功能,然后可以从导入的联系人中识别出已经在LinkedIn注册的用户,并批量发送链接邀请。通过这三个邮箱的导入:LinkedIn上将联系人由几十人扩大到了200多人,FaceBook上也有类似功能:导入邮箱通讯录后,联系人增加了40多人。

用户之所以允许LinkedIn和FaceBook进行基于通讯录的病毒式营销原因有以下几点:
1 方便:基于web的导入比起让用户从web邮箱选择CSV格式导入再上传要方便很多;
2 信任:用户对网站服务隐私保护的信任,这2个导入服务都不存储邮箱帐号,密码;
3 定向/可过滤:从导入的联系人中选择已注册本服务的用户比直接向所有导入的联系人发送邀请通知要聪明很多:因为导入的邮箱联系人中有很多是网站的客服帐号,邮件列表地址等不适合发送的地址,通过已注册检查可以很方便的过滤掉这些地址,减少不礼貌的Spam;

按此阅读全文 "基于邮箱通讯录导入的用户联系圈扩展" »

2007年05月11日

“如何”和“怎样”方便的找到用户的需求

目前很多搜索引擎的竞价客户还不太善于选择关键词发现和挖掘潜在客户,如何引导客户从用户角度考虑问题呢? 用户遇到问题/需求的时候一般都用什么关键词寻找解决方法呢?百度的相关搜索接口是一个很方便的来源,直接搜索 “如何” 、“怎样”还能知道现在网民最多的需求:

1 如何炒股
2 如何购买基金
3 如何减肥
4 如何买基金
5 如何看k线图
6 如何打开注册表
7 如何重装系统
8 如何买股票
9 如何制作网页
10 如何进入安全模式

类似的:从日志统计中发现,spoolsv.exe是最大的用户来源。那么除了spoolsv.exe外,用户还经常搜那些相关的问题呢?查一下“.exe”就可以关联出其他经常被查询的关键词。

1 svchost.exe
2 cmd.exe
3 iexplore.exe
4 alg.exe
5 wuauclt.exe
6 ctfmon.exe
7 explorer.exe
8 taskmgr.exe
9 avp.exe
10 rundll32.exe
11 spoolsv.exe

原来spoolsv.exe只是一个此类关键词中流量排名第11位的,通过搜索量状态条可以推算出其他关键词的搜索量。

按此阅读全文 "“如何”和“怎样”方便的找到用户的需求" »

2007年05月12日

再次邀请您参加:中国网络工程师侠客行大会(5月19/20日 杭州)

2007年5月12日更新:
我邀请您参加:首届中国网络工程师侠客行大会暨中国互联网技术精英论坛(2007年5月19-20日杭州)

参加白天的讲座:
1 下载登记表
2 填写完整后发送到: developer@alibaba-inc.com

参加晚上的交流活动(酒吧):
0 中文姓名:
1 手机:
2 通讯地址:
3 邮编:
4 发送到: developer@alibaba-inc.com +

谢谢!

按此阅读全文 "再次邀请您参加:中国网络工程师侠客行大会(5月19/20日 杭州) " »

2007年05月16日

MagpieRSS的parse_w3cdtf()函数对blogger atom格式的bug修正

很奇怪从Lilina上订阅的blogger.com发布的内容发布时间总是显示为未来8小时(格林威治)时间,一开始怀疑是atom输出的时区设置问题,但是看了atom.xml的输出,发现是有时区设置的,和其他引用的atom输出的主要区别在于发布时间有毫秒设置:

<published>2007-05-15T14:49:00.000+08:00</published>

Lilina是一个基于MagpieRSS的聚合工具,MagpieRSS中对于atom格式时间的解析是通过rss_utils.inc中的parse_w3cdtf()函数,当时可能没有考虑到秒后面还有毫秒,导致对后面的时区设置解析失败,变成了格林威治时间。修正后的正则表达式和代码如下:可以兼容解析其他标准的ISO 8601时间格式解析。

diff -r1.7 rss_utils.inc
28c28
<     $pat = "/(\d{4})-(\d{2})-(\d{2})T(\d{2}):(\d{2})(:(\d{2}))?(?:([-+])(\d{2}):?(\d{2})|(Z))?/";
---
>     $pat = "/(\d{4})-(\d{2})-(\d{2})T(\d{2}):(\d{2})(:(\d{2}))?(\.\d{3})?(?:([-+])(\d{2}):?(\d{2})|(Z))?/";
43c43
<                 array( $match[8], $match[9], $match[10]);
---
>                 array( $match[9], $match[10], $match[11]);

 

给Blogger的问题:这个修改有些nerdly吧?文章发表时间有必要精确到毫秒吗?我找到的atom的相关规范是按照ISO 8601格式,也就是:2007-05-15T14:49:00+08:00

按此阅读全文 "MagpieRSS的parse_w3cdtf()函数对blogger atom格式的bug修正" »

2007年05月22日

解决MT发送邮件通知给GMail遇到的SPF校验问题

blog系统有一个很有用的功能就是邮件发送留言通知:但是发送到GMail邮箱的通知信十有八九都会被标记为垃圾邮件。原因就是SPF:Sender Policy Framework (SPF) 要做发送人校验,而MT设置的发信人是留言者的邮件地址,而退信地址是MT系统所在服务器的邮箱。
Received-SPF: neutral (google.com: 60.195.249.163 is neither permitted nor denied by domain of apache@localhost.localdomain)
我的WEB服务器上没有任何邮件系统。所以无法通过SPF校验,有严格的SPF校验这也是GMail相对Spam比较少的原因。

如何解决呢:
1 增加邮件系统,设置MX记录等,需要学不少东西;
2 简单的就是先发到不支持SPF校验的邮件系统上,然后再转发给GMail,这时候的退信地址已经转发邮箱了:
Received-SPF: pass (google.com: domain of #####@yeah.net designates 60.12.227.137 as permitted sender)

按此阅读全文 "解决MT发送邮件通知给GMail遇到的SPF校验问题" »

关于 2007年05月

此页面包含了在2007年05月发表于车东[Blog^2]的所有日记,它们从老到新列出。

前一个存档 2007年04月

后一个存档 2007年06月

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36