Source favicon21:57 中文 WordPress 工具箱 » 桑林志
注意到不少人说桑林志的单贴页面如果查看源文件的话是乱码,起初我不在意,因为我在 firefox 查看下正常。后来,看说的人多,我才仔细检查了一下,发现在 IE 下,查看源文件会启动记事本...
Source favicon20:39 Beijing Winter 2006 » Wangjianshuo's blog
Ice field of the Summer Palace. © Jian Shuo Wang. Winter at the Summer Palace. © Jian Shuo Wang. Winter at the Summer Palace. © Jian Shuo Wang. Trees at the Summer Palace Thanks Che Dong for bringing the USB cable to me. That helped me a lot. Otherwise, I couldn't take pictures at the Beijing Airport today. P.S. I am happy to have dinner with my friends in Beijing again. Che Dong, Ada, An Ti, Lu Liang, Ming Zhu......
Source favicon17:32 Anal » English - The Real Deal
Brokeback Mountain是我在狗年看的第一本电影。赞美的话想必大家都听腻了,我就不再重复。这部影片在大陆已被正式禁播,简直跟它获得奥斯卡提名一样没有悬念。不过我就是不服气——人兽恋可以畅通无阻,两个男人为啥就不行了呢?(没有贬低King Kong的意思。) 除了一声叹息,我能做的也只有在自己的blog上号召一下了:从网上下载也好,去买盗版也好,国内的朋友一定要想办法看这本电影!(本人一向尊重知识产权,但特殊情况只能特殊对待。) PSA(Public Service Annoucement)完毕,转回本blog的主题。熟悉我的朋友应该知道,我很讨厌劣质的电影名翻译。这回的Brokeback Mountain又让我不爽了一把。国内的媒体无一例外地把它翻成“断臂山”。搞什么呀? Back是背,断背山不完了吗?非得来个断臂山。又不是Brokearm Mountain。莫名其妙。 说到这里,顺便教大家个俚语单词——anal。别想歪了。没错,它有“肛交”的意思(short for “anal sex”),Brokeback Mountain里也的确有anal scenes,不过在这里要介绍的是它另一个常用的意思——caring too much about small details and about how things are organized(挑剔枝节的,专注小事的),通常带贬义。 比如Friends里的Monica,又比如Desperate Housewives里的Bree。东西一定要摆在固定的地方,餐具一定要干净到闪闪发光,有什么小细节没到位就跟吃了苍蝇一样难受。这就是anal。 为什么要提anal?因为很多人都说我在语言方面太anal。我承认。事实上,我不但承认,还很自豪。所以我就是要继续纠正it’s/its不分、everyday/every day不分、满口“我是某某fans”的人,也偏要继续坚持叫Brokeback Mountain“断背山”、拒绝使用“断臂山”这个名字。同时,我还要继续鄙视那些被纠正了之后漫不经心地说“No big deal.”或者带着讽刺口吻来句“Big deal!”的人。错就是错,别跟我来“有啥了不起的”这一套。 末了,看看这个Broke Mac Mountain,乐一乐。(看过Brokeback Mountain的人会觉得更好笑一些。) Bonus video: Clear Static - Make-Up Sex (Clean version, but still NSFW.)
Source favicon14:48 phpCodeBeautifier: User Manual » del.icio.us/chedong
php代码的自动缩进美化工具,有单独的命令行版本和集成在phpEdit中的版本
Source favicon13:15 Trojan Marketing: Evite, DoubleClick, and the rest » del.icio.us/chedong
# Home page hijackings on Trojan Marketing, and # other intrusive and but even more aggressive techniques by lop.com and GoHip, and # web bug information from the Electronic Frontier Foundation
Source favicon12:15 搜索引擎spam的防止 » 搜索引擎研究

过年回家前最后一次搜索引擎聚会讨论的主题是如何防止搜索引擎spam。spam现在应该是“相当的”严重了,现在搜索引擎的第一页经常成为了spam的专区,已经严重影响了搜索引擎的正常使用和用户对搜索引擎结果的信任。

参加讨论的有好几个相当专业的朋友,我的抛砖引玉总算没有白费,下面整理一些上次讨论的记录。

1. 什么是spam,seo?

2. spam 和 seo 的差别和关系。

3. spam 的种类
a. 内容型(内容欺骗型与非欺骗型) b. 联结型 c. 复合型

4. 搜索引擎如何判断spam
a. 联结分析:网站(域名,IP)之间的联结,网页之间的联结的数目,应该限制在一定的数目内,并且要考虑分布的状况。
b. 页面单一词汇的分析:页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。
c. 页面stopwords的分析:stopwords的比例和位置是一个高斯分布和均匀的。
d. 页面连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。
e. 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam
f. 相关分析:白名单,黑名单
g. 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后联结就被记录下来,成为一个“陷阱”。
h. 非联结内容与正文的比例。就是正文里非联结的文字的比例,这一点我有所担心,因为现在的page rank采用两种page rank,一种是联结型网页,一种是内容型网页,如此判断很容易将联结型网页当做spam,例如 hao123.com 。

5. 锅炉现象
最难判断的是一种我们定义为“锅炉现象”的spam,这个我前一段时间曾经跟车东讨论过:
武大郎对锅炉说。。。
在众多的spam里,一种以替换文章中特殊词汇并加以联结的新类型spam难以从上述方法进行剔除。例如将水浒传里所有的武松替换成锅炉,并将锅炉进行联结到目标网站。

讨论完毕后第二天一位朋友建议从上下文紧挨的上一个字和下一个字来进行分析,这个方法尚在探讨中。

总结:spam已经严重影响了搜索引擎的质量,能否准确消除spam是提升搜索引擎质量的一个关键要素。

这里挂一漏万,如有更多的方法和建议请告知。

另外,推荐阅读:SVMs for the Blogosphere: Blog Identification and Splog Detection, P Kolari, T Finin, A Joshi - ebiquity.umbc.edu

Source favicon11:53 heart of the home » information aesthetics

rca_spirit_level.jpga conceptual idea for determining & representing the 'heart of the home' using data created from habitual activity around the house (eg: the number of times the kitchen door is opened & closed). the representation would use pneumatics to shift the spirit level according to the data, thus changing where the current 'heart of the home' is. (this project is among a set of sketchbook ideas). [rca.ac.uk (pdf, 23MB)]

07:00 2006/02/03 07:00:00TQ洽谈通搜索力指数排行榜 » TQ洽谈通搜索力指数
 搜索引擎  搜索力指数  排名升降  份额
1. Baidu  54321922     57.52%
2. 3721  11437526     12.11%
3. Google  9752234     10.33%
4. Yahoo  9181822     9.72%
5. 163  3907474     4.14%
6. Sogou  2779622     2.94%
7. QQ  1295866     1.37%
8. China  669710     0.71%
9. iAsk  588130     0.62%
10. Zhongsou  326454     0.35%
11. Tom  159114     0.17%
12. Yisou  17502     0.02%
13. Sohu  4530     0.00%
14. Sina  134     0.00%

^==Back Home: www.chedong.com

<== 2006-02-02

==> 2006-02-04