« 2006年05月 | (回到Blog入口) | 2006年07月 »

2006年06月 归档

2006年06月07日

[MT]:垃圾评论的关键词词频统计

MT做为最成功的blog发布系统之一被spammer叮上有好几年了,虽然在mt 3.2以后垃圾评论的管理已经加强很多,但spammer对于mt的spamlookup的适应速度也是非常快的。昨天做了几个脚本统计,分析了一下垃圾评论中的关键词特征:数据源来自最近十天收到的2000多篇垃圾评论,目前收到的mt spam以英文为主。

30207 http 是的,获得反向链接是spammer最主要的目的:在PageRank做为
22256 biz .biz域名最近是不是降价了?这是spammer使用的主要域名后缀
22181 resea
21318 gay
10600 href spam中一般包含大量的html标签,后面还有 _blank target等;
5018 com
4974 boy
3134 info
3075 teen
2426 adobe 除了色情类的关键词,国外还有经常推销打折软件,这在中国是很难想像的,
2393 porn
2373 acrobat
2282 nude
2281 video
2267 sex
2082 url
1821 male
1653 html
1575 movie
1547 guys
1534 www
1529 strong
1297 pic
1291 cock
1278 pro
1270 man
1124 twinks
1054 anal
983 xxx
977 young
941 hardcore
880 picture
812 black
775 best
764 regards
744 buy
733 hot
732 fucking
728 blog
726 target
726 _blank
723 gallery
716 the
704 russian
696 lide
680 online
677 viagra
639 ultram
632 150m
623 weight
615 valium
609 blogspot blogspot是spammer经常使用的免费hosting之一。
588 cum
584 free
570 naked
562 kissing
559 sexo
556 free6xxx
545 ass
544 phentermine
528 rapidforum
528 64751
501 mujweb
490 and
489 cute
464 valiumonline
442 yahoo yahoo邮箱是spammer常用的fake邮箱地址;
436 cheap
428 lose
401 net
380 xxxcredo
376 freesexcredo
366 myteeundercar
360 freexxxcredo
341 site
336 pornzzz
328 you
321 found
306 dan
304 page
304 org
296 post
292 see
292 fuck
292 credosex
289 college
288 clip
288 adult
286 little
285 model
277 gratis
267 praize
259 discount
258 big
236 nice
232 fat
224 three
224 amateur
223 fc2
219 with

按此阅读全文 "[MT]:垃圾评论的关键词词频统计" »

2006年06月09日

使用雅虎实现免费站内搜索

经过了一搜 yahoo.com.cn search.cn.yahoo.com这几个域名的变迁,雅虎搜索的很多接口都变化了。今天又有人问我如何使用雅虎进行站内搜索,我做了一个样例:
<!-- SiteSearch Yahoo -->
<form method="get" action="http://search.cn.yahoo.com/search" target="yahoo_window">
<p>
<input type="text" name="p" size="20" maxlength="55" value=""></input><br />
<input type="radio" name="vs" value=""></input><a>Web</a>
<input type="radio" name="vs" value="chedong.com" checked="checked"></input><a>chedong.com</a><br />
<input type="submit" name="sa"></input><br />
</p>
</form>
<!-- SiteSearch Yahoo -->

替换黑体字部分改成你的域名,然后将以上代码嵌入到网页中就可以了:

按此阅读全文 "使用雅虎实现免费站内搜索" »

2006年06月16日

Movable Type: 原来是活字印刷的意思

在Jedi的MT手册上: 有一段关于Movable Type的原意说明:
* 紙面出版系統
* 內容可重用
* 版面易套用
* 模組化處理
* 祇需要做一次苦工
* 增加出版效率

做为一套blog发布系统本身,Movable Type已经太有名了,以至于都快忘记了Movable Type的原本意思是指:活字印刷術(在西方最早的发明者是Gutenberg),这个命名很形象:因为如果互联网是这个时代的纸张,从可重用,模块化,提高效率这方面:blog这种系统的设计还真像是互联网时代的“活字”印刷术。

按此阅读全文 "Movable Type: 原来是活字印刷的意思" »

2006年06月23日

将个人域名邮箱迁移到GMail

虽然Google和MSN都开通了your domain 的mail hosting服务,但是目前让自己个人域名邮箱利用上它们服务的最简单方法就是:利用邮箱自动转发功能将原有邮箱的邮件转发到 Gmail帐号上 ,然后就可以充分利用 GMail的功能了,感觉最大的好处在于:
1 反垃圾邮件: GMail的anti spam做的还是比较好的,
spam_gmail.png
缺点:
对于很多中文垃圾邮件识别率低一些;
有时会将从MT发出的垃圾评论确认误当作是spam邮件,试过其他邮箱 yahoo.com/hotmail.com 甚至比Gmail的错误率还要高一个数量级;
2 基于web的主题浏览:基于ajax的浏览的确很提高查看效率,删除垃圾邮件也很方便;
3 大空间:目前我的所有的邮件都转发到GMail上 “目前您已经使用了2737 MB中的166 MB(6%)。”

其实其他邮箱除了做好anti spam外,最需要向gmail学的就2点:
1 直接进入收件箱,让用户少一次鼠标点击;
2 有广告可以:不要使用flash(大大降低页面浏览速度):比如 hotmail最近已经将右侧的广告位取消了;
3 字符集的自动识别:尤其是对utf-8格式邮件的支持;
4 假发送时间的自动纠正:经常有垃圾邮件发送时间是2038年,以求排在所有邮件的最前面;

按此阅读全文 "将个人域名邮箱迁移到GMail" »

关于 2006年06月

此页面包含了在2006年06月发表于车东[Blog^2]的所有日记,它们从老到新列出。

前一个存档 2006年05月

后一个存档 2006年07月

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36