从周围使用MT朋友的经验来看:针对MT系统的搜索引擎SPAM已经成为越来越严重的问题,很多利用MT这样对用户留言比较开放的CMS系统进行的SPAM程序:自动探测MT发布系统的留言入口,发布垃圾信息,目的就是为了通过当前BLOG发布页面中的评论作者主页链接获得到自己网站的反相链接,引导Googlebot的抓取,从而获得更高的PageRank。
本文主要设想利用搜索引擎的robots.txt标准:通过MT系统主动告知搜索引擎蜘蛛直接对话:告诉那些内容是经过当前BLOG发布者完全控制的,那些是可能不受到发布者控制的。只让搜索引擎的蜘蛛抓取BLOG发布者自身完全控制部分的信息,不仅尽可能减少了spammer进行spam的机会,更重要的要无法让spammer达到他们的目的。
2005-01-05 Six Apart发布官方anti comment spam说明
2005-01-08 Jeremy's mod_rewrite anti comments spambot
从CatHome01的讨论我想到了一个使用Referer来判断是否是来自本网站的附加校验:这样就避免了一次对提交模板的修改。趁spammer还没有开始模拟referer还能抵挡一阵吧。
use CGI qw(:standard);
if ($ENV{'REQUEST_METHOD'} ne "POST" || !($ENV{'HTTP_REFERER'} =~ /InputYourDomainHere/) ) {
print "Content-Type: text/html\n\n";
print "Error occurred: ";
die();
}
比如:我自己网站上的就是:
use CGI qw(:standard);
if ($ENV{'REQUEST_METHOD'} ne "POST" || !($ENV{'HTTP_REFERER'} =~ /chedong\.com/) ) {
print "Content-Type: text/html\n\n";
print "Error occurred: ";
die();
}
另外:大家都越来越懂得了BackTrack ping是为自己获得反相链接的好办法。很多家网站的BLOG系统都开始进行自动bACKtRACK发现:甚至只要引用了网站的,都会自动找到这个网站的最新一篇BLOG发上一个trackback ping。backtrack ping成为spammer鱼肉的日子不远了。