车东[Blog^2]: 2006年11月归档

MT 3.33模板的SEO改进

MT3.33发布后，批量刷新了几个网站的缺省模板，发现以前需要我对模板手工修改的很多地方已经是缺省模板的设置了：
1 首页每篇文章标题增加了指向内容页的链接：原先只有文章下面有一个“全文”；
2 内容页的标题格式修改：由原来的：“[网志名称] - [文章名称]”变成了“[文章名称] ([网志名称])”，内容标题比网站名更重要；
3 内容页分成了左右两栏模式：可以在右栏中更方便的增加更多链接模块实现站内信息的关联和导航，；

按此阅读全文 "MT 3.33模板的SEO改进" »

车东发表于 2006年11月02日上午10时45分 | 全文 | 评论 (4)

应届生如何应聘雅虎中国/阿里巴巴工作职位

从校园招聘的网站直接提交简历：http://campus.chinahr.com/2007/pages/alibaba/
参加在线答题和简历系统提交，招聘组会根据在线系统中的考试情况安排笔试。

给应届生的建议：
1 去sf.net上找个项目学学：使用，Hack，改进都可以；
2 了解雅虎中国和阿里巴巴的相关产品；
3 简历使用纯文本，发邮件不要使用附件；
4 准备一个6分钟的自我介绍：表现出你对相关领域的热爱；

另外：如果你是设计师，可以在杭州工作，还有淘宝的职位供选择。

如果不是应届，请继续看：

按此阅读全文 "应届生如何应聘雅虎中国/阿里巴巴工作职位" »

车东发表于 2006年11月08日傍晚08时06分 | 全文 | 评论 (5)

豆瓣“我上”：一个blog就是一本有趣的书

豆瓣的新功能：我上的blog，你看过的blog就是一本会有趣而且不断更新的书，很有创意。

现在用起来还有些麻烦：能自动推荐列出的blog很少，大部分需要将你喜欢的blog主动搜出来。大家一般都是先搜自己吧？已经有很多blogger开始ego surf了。

按此阅读全文 "豆瓣“我上”：一个blog就是一本有趣的书" »

车东发表于 2006年11月09日晚上09时31分 | 全文 | 评论 (7)

LiveHTTPHeaders更新，能在FireFox2.0里用了

将Firefox升级到2.0以后：LiveHTTPHeaders这个我常用来debug网页的插件就不能用了（另外一个是Proxy切换工具）。其实大部分这些插件都是兼容的：兼容不兼容全看插件自己声明，只是当初做的时候中还没有FireFox 2.0。着急的话可以下载插件的xpi文件，将其中的1.5改成2.0即可。

但是还是最好有官方的升级：今天打开FF发现已经有了。

LiveHTTPHeader的主要功能：就是实时跟踪浏览器与服务器端的HEADER请求，并导出日志供分析。

更新说明：
# The version 0.13.1 is now available. It simply fixes the version number in a few places ;).
If you want, you may also make a donation
E-Gold account:
- 1746494
Pecunix account:
- savardd@gnulinux.ca
# The version 0.13 is now available. It is compatible with Firefox 2.0.

按此阅读全文 "LiveHTTPHeaders更新，能在FireFox2.0里用了" »

车东发表于 2006年11月12日下午06时51分 | 全文 | 评论 (3) | 引用通告 (1)

速度比较：GMail/MSN/Yahoo!Mail

用LiveHTTPHeaders做了一个比较：发现GMail比Yahoo!Mail和LiveMail快还是有原因的。

从输入域名，到登录完成进入邮箱的HTTP请求次数（已经保存密码自动登录）：
9 gmail.log
19 hotmail.log
34 ymail.log

GMail的请求：9次

GET /mail/
GET /mail/
GET /mail/
GET /mail/im/dropupdown.gif
GET /setgmail
GET /mail/
GET /mail/
GET /mail/
GET /mail/

Live Mail的请求：19次，其中7个广告相关的请求

GET /mail/mail.aspx
GET /mail/Bootstrap_11.08.0100.0011.aspx
GET /mail/loading_11.08.0100.0011.aspx
GET /mail/ApplicationMain_11.08.0100.0011.aspx
GET /c.gif
POST /mail/mail.fpp
GET /mail/stylesheet_11.08.0100.0011.aspx
GET /mail/11.00/theme0/thumbn.gif
GET /mail/11.00/theme7/thumbn.gif
GET /ADSAdClient31.dll
GET /ADSAdClient31.dll
POST /mail/mail.fpp
GET /mail/11.00/theme6/thumbn.gif
GET /ADSAdClient31.dll
GET /mail/11.00/theme4/thumbn.gif
GET /ADSAdClient31.dll
GET /main/adfshow
GET /main/adfshow
GET /msnms/20061025/Hotmail(China)today_Rectangle_300_250_20k.swf

Yahoo!Mail（Beta版）：34次

GET /
GET /b
GET /search
GET /yab/cache/cn/w85nP6Cx_z657_m9Yyg9Aw--
POST /ws/mail/v1/soap
POST /rss/Content/V3.0/getUserFeedData
POST /ws/mail/v1/soap
GET /dc/fc
GET /ws/cal/w85nP6Cx_z657_m9Yyg9Aw--/v0.1/event
GET /a
GET /a
GET /b
GET /a
GET /candygram/welcome/
GET /b
GET /a
GET /a
GET /img/loginrec.htm
GET /candygram/welcome/
GET /promo/p2006/tab_cg.html
GET /a
GET /us.yimg.com/a/1-/jscodes/031016/ct_lrec_031016.js
GET /img/loginrec.htm
GET /b
GET /b
GET /a
GET /b
GET /promo/p2006/tab_cg.html
GET /b
GET /b
GET /a/ad/daphne/20060809_74790_3_300x250_lrec_dragdrop_China.swf
GET /serv
GET /serv
GET /mail/

按此阅读全文 "速度比较：GMail/MSN/Yahoo!Mail" »

车东发表于 2006年11月16日早上08时52分 | 全文 | 评论 (4) | 引用通告 (1)

MT HTTP error: 403 Throttled的原因和解决

已经几个月收不到各种TrackBack Ping了，应该是升级到MT3.3以后出现的。今天查了一下Trackback功能罢工原因 - flypig.org：超出了每小时和每天的trackback有次数上限，而缺省配置文件中没有表明相应选项（缺省的没小时和每天的trackback ping的上限是10和50）；
OneHourMaxPings 10
OneDayMaxPings 50
每天上千的垃圾trackback很快将这个限额填满了（我的blog上目前有这个限制后平均每天只收到50多个垃圾ping），但正常的TRACKBACK随后也就进不来了……

所以在mt-config.cgi文件中，增大以下2个参数的上线就能解决了，比如：
OneHourMaxPings 5000
OneDayMaxPings 20000

MT能否改进一下TrackBack ping limit的统计机制呢？被归入spam的trackback不记入quota呢？

按此阅读全文 "MT HTTP error: 403 Throttled的原因和解决" »

车东发表于 2006年11月17日上午10时39分 | 全文 | 评论 (11) | 引用通告 (1)

Apache 1.3上的mod_gzip编译和配置

最近打算做一个试验，需要重新安装一下apache 1.3上用的的http压缩模块：mod_gzip（这个模块已经很久没有维护了，apache 2.x已经内置有mod_deflate压缩模块）

以下是编译mod_gzip报的错：
make APXS=/home/apache/bin/apxs

/home/apache/bin/apxs -Wc,-Wall,-O3,-fomit-frame-pointer,-pipe -c mod_gzip.c mod_gzip_debug.c mod_gzip_compress.c -o mod_gzip.so
gcc -DLINUX=22 -DHAVE_SET_DUMPABLE -I/usr/include/gdbm -DUSE_HSREGEX -DUSE_EXPAT -I../lib/expat-lite -fpic -DSHARED_MODULE -I/home/apache/include -Wall,-O3,-fomit-frame-pointer,-pipe -c mod_gzip.c
cc1: error: unrecognized command line option "-Wall,-O3,-fomit-frame-pointer,-pipe"
apxs:Break: Command failed with rc=1
make: *** [build] Error 1

只好把Makefile中的：-Wall,-O3,-fomit-frame-pointer,这几个选项取消，然后就编译通过了……
gcc的版本如下：

Using built-in specs.
Target: i386-redhat-linux
Configured with: ../configure --prefix=/usr --mandir=/usr/share/man --infodir=/usr/share/info --enable-shared --enable-threads=posix --enable-checking=release --with-system-zlib --enable-__cxa_atexit --disable-libunwind-exceptions --enable-libgcj-multifile --enable-languages=c,c++,objc,java,f95,ada --enable-java-awt=gtk --with-java-home=/usr/lib/jvm/java-1.4.2-gcj-1.4.2.0/jre --host=i386-redhat-linux
Thread model: posix
gcc version 4.0.2 20051125 (Red Hat 4.0.2-8)

有哪位遇到过类似问题吗？

按此阅读全文 "Apache 1.3上的mod_gzip编译和配置" »

车东发表于 2006年11月18日下午01时49分 | 全文 | 评论 (7) | 引用通告 (1)

CCode and TCode: MT的防SPAM插件

老办法改脚本文件名还是要用：
在mt-config.cgi中加上：

TrackbackScript tb.cgi
CommentScript comments.cgi

注意：MT官方网站上的TrackbackScript说明有误：应该是小写b
TrackbackScript != TrackBackScript

CTCode已经调通了，写笔记宣传一下。感谢毕勤的提示，找到了CCode和TCode这个防spam插件。原理很简单：就是将原来的Comment和Trackback的ID后面增加了一个数字（我观察：10位数字应该是~~文章发表的时间戳~~基于时间戳生成的数字）用作干扰，以防止Spammer用留言机对于使用MT进行blog发布的系统进行地毯式trackback轰炸（从文章1到文章1000）。

优点：
1 COMMENT和TRACKBACK的spam问题同时解决；
2 不用安装新的PERL模块（使用图形验证就比较麻烦，需要安装很多动态生成模块）；
3 blog读者不增加负担，不用输入校验码之类的（但是TRACKBACK变成手工的了，无法自动发现了）；

缺点：
改的地方太多，除了部署plugins文件外：
1 每个BLOG一一修改模板单篇归档模板的留言表单；
2 留言页面需要增加一个JS函数：增加单独js文件，或者扩展mt-site.js
3 需要重建所有页面；
4 针对分布式spambot不管用：还是要先将改文件名。

安装以后的确有感到回到刚安装MT时候的安静环境中（但：目前spamlookup插件仍然在使用中）。希望能和spamlookup一样，成为MT的标准插件配置；

以下是具体安装和配置过程：

按此阅读全文 "CCode and TCode: MT的防SPAM插件" »

车东发表于 2006年11月20日下午01时52分 | 全文 | 评论 (7) | 引用通告 (9)

Apache上的防图片/mp3盗链配置：mod_rewrite it

Apache上的防mp3盗链的参考配置如下：

RewriteEngine on
RewriteCond %{HTTP_REFERER} !^http://(www\.)?niernier\.com/.*$ [NC]
RewriteRule \.(mp3|rar)$ http://www.niernier.com/archives/000445.html [R=301,L]
#RewriteLog "logs/rewrite.log"
#RewriteLogLevel 3

功能：
不仅屏蔽/禁止非本网站的盗链访问，还将盗链请求转给自身的网站，让读者知道谁是真正的原创作者。

说明：
RewriteCond 条件：意思就是所有的mp3和rar访问如果referer不是本网站niernier.com或www.niernier.com，
RewriteRule 规则：自动转向到原作宿主页： http://www.niernier.com/archives/000445.html
注释掉的部分是测试rewrite engine用的：对于调试mod_rewrite很有用。

效果：字节流量比原来下降一半，网站独立用户访问量上升了1倍
日期参观人次网页数文件数字节
2006年十一月 16 685 897 4641 865.99 M字节
2006年十一月 17 728 1173 5522 1.28 G字节
2006年十一月 18 648 934 5535 1.46 G字节
2006年十一月 19 704 1020 7120 1.40 G字节
2006年十一月 20 882 1176 5286 1.23 G字节
2006年十一月 21 2380 3526 6076 568.01 M字节
2006年十一月 22 2146 3003 5791 458.13 M字节
2006年十一月 23 2092 3177 6131 518.99 M字节

具体的数据和商业模式分析附后：

按此阅读全文 "Apache上的防图片/mp3盗链配置：mod_rewrite it" »

车东发表于 2006年11月22日下午06时15分 | 全文 | 评论 (13) | 引用通告 (4)

Spider: 以遵守robots.txt协议为荣以匿名盗抓为耻

按照是否匿名和是否遵循robots.txt协议有4种蜘蛛：
1 真名真姓，遵循robots.txt 协议。代表：GoogleBot ~~BaiduSpider~~ MSNBot Yahoo!Slurp 等
2 真名真姓，不遵循robots.txt协议。代表：iAskSpider SohuAgent ~~wget~~
3 匿名，不遵循robots.txt协议。代表：大量的匿名蜘蛛，例如 OutfoxBot；
4 伪装：不遵循robots.txt协议。代表：中搜，各种SpamBot，

如何识别这四类蜘蛛呢？通过HTTP协议和是否支持mod_gzip都很好的特征。做一个知荣知耻的spider很难吗？事实上：比较难。没有一定的技术积累，spider就和spambot一样。详细分析附后：

按此阅读全文 "Spider: 以遵守robots.txt协议为荣以匿名盗抓为耻" »

车东发表于 2006年11月24日上午11时55分 | 全文 | 评论 (25) | 引用通告 (3)

车东[Blog^2]

良好引用，良好结构，良好导航 Well referenced and well organized, with easy navigation

2006年11月归档

2006年11月02日

MT 3.33模板的SEO改进

2006年11月08日

应届生如何应聘雅虎中国/阿里巴巴工作职位

2006年11月09日

豆瓣“我上”：一个blog就是一本有趣的书

2006年11月12日

LiveHTTPHeaders更新，能在FireFox2.0里用了

2006年11月16日

速度比较：GMail/MSN/Yahoo!Mail

2006年11月17日

MT HTTP error: 403 Throttled的原因和解决

2006年11月18日

Apache 1.3上的mod_gzip编译和配置

2006年11月20日

CCode and TCode: MT的防SPAM插件

2006年11月22日

Apache上的防图片/mp3盗链配置：mod_rewrite it

2006年11月24日

Spider: 以遵守robots.txt协议为荣以匿名盗抓为耻

搜索

关于 2006年11月

车东[Blog^2]

良好引用，良好结构，良好导航 Well referenced and well organized, with easy navigation

2006年11月 归档

2006年11月02日

MT 3.33模板的SEO改进

2006年11月08日

应届生如何应聘雅虎中国/阿里巴巴工作职位

2006年11月09日

豆瓣“我上”：一个blog就是一本有趣的书

2006年11月12日

LiveHTTPHeaders更新，能在FireFox2.0里用了

2006年11月16日

速度比较：GMail/MSN/Yahoo!Mail

2006年11月17日

MT HTTP error: 403 Throttled的原因和解决

2006年11月18日

Apache 1.3上的mod_gzip编译和配置

2006年11月20日

CCode and TCode: MT的防SPAM插件

2006年11月22日

Apache上的防图片/mp3盗链配置：mod_rewrite it

2006年11月24日

Spider: 以遵守robots.txt协议为荣 以匿名盗抓为耻

搜索

关于 2006年11月

2006年11月归档

Spider: 以遵守robots.txt协议为荣以匿名盗抓为耻