新年快乐 | 01 Jan 2007 - Digest by CheDong.com

自打换了小掌门，网易新闻要顺眼多了。观察了几个星期，痛感改版后的网易新闻，值得在新年第一个日子为其写篇 blog。一般门户网站－－哦，不好意思，纠正一下，这个“一般门户网站”对我就是某浪了，因为我也不去什么其他门户－－3栏的页面安排，链接密密麻麻，到处是动画或者Flash广告，fade，弹出，通栏，挂角，打上往下坠，从下而上拱，无所不用其极，有时候用启用了广告屏蔽的 Maxthon 或者 Firefox 都防不胜防，只能用令人发指来形容。即便细微处看，某浪也搞些把广告和新闻混排的勾当，此外保持超链接为蓝色加下划线，密集排布下来眼睛很不舒服。这几年来，某浪的页面似乎一直没变过－－显然这不是因为好到无需改进。一年多前，我一同事说楼下 B3 的食堂是“不是他们没能力把菜做得好吃，而是他们简直在故意把菜做得难吃”－－这也就我想形容某浪的。它发家时怎样就不说了，时至今日某浪还浪得第一新闻网站虚名，实不解。这些综合因素下来，我到某浪看东西的时间越来越少，因为阅读疲劳，生理心理都不舒服。早时没发现什么非常好的某浪替代品，只能忍着。现在的网易新闻布局比较清爽－－如果用 Maxthon 打开屏蔽广告，养眼程度会更进一步－－两栏设计，去了那些其实是为铺天盖地鬼才会专门去看的垃圾东西留下的空间，没有乱窜的广告强奸读者视听。左边是新闻列表，右边是回顾或专题等内容。看东西很容易“聚焦”，没什么干扰。新闻超链就是普通的黑色字体，无下划线，所以没某浪那个扎眼。单篇新闻的页面中间没有插入广告，实属可贵，看东西非常顺畅舒服。好有些小地方比如根据访问者地区（应该是依据 IP）现实地方新闻和天气预报，倒也算是个积极态度，这些大家都可以自己尝试一下啦。在网易关于改版的官方内容中，有段话挺有意思：一些网站现在采用的诸如“一味追求新闻的快而全”，“一个简单转载传统媒体的文摘网站”，“一个迎合民粹主义的狂欢平台”等网络新闻模式，显然无法满足广大用户的根本需要。诚然改版的网易不代表没有凶杀，强X的网易，不代表没有一条广告的网易，不过改版仍是个可喜的进步，是个至少让我个人受益的进步。我不是什么专业人士，拿不出个把新闻专业术语砸向列位，不过看着舒服是硬道理，自己感觉得到才最权威。也祝大家早日找到（更）称心如意的新闻门户。 Tags: netease, news, web

19:27 年终小结：2006 » 车东[Blog^2]

又到了年终小结的时候了：

chedong.com:
网站大部分流量来源仍然是Google/Baidu。

不过今年的热门主题是：spoolsv和脑筋急转弯，完全是歪打正着。

2006最常用的几个软件和服务基本上和2005年的差不多，更多的是改进和熟悉使用。

在工具栏上增加了2个常用的https服务：GMail和GReader。
GMail:
把 @chedong.com邮件先迁移到了DreamHost（先过滤一部分垃圾邮件），然后转发给GMail。

GReader：
GReader今年的改版回归了树型，速度上大大超越BlogLines。而抓虾很有潜力的是digg功能：RSS阅读和DIGG发掘机制的结合是未来超越单纯的RSS阅读和纯DIGG服务的方向。

15:55 2006 年使用频率比较高的几款软件 » DBA notes

这篇 Blog 算是对去年《2005 年度我最喜欢的几个软件》的回顾吧。

GreatNews --RSS 阅读工具

相比去年来说，今年使用 GreatNews 的时间甚至超过 IE 浏览器。个人的阅读习惯上也发生了变化，现在更多是通过 RSS 获取信息。虽然有很多在线 RSS 阅读工具，如 Bloglines 以及国内做的很棒的抓虾，我个人还是比较喜欢 GreatNews 这种客户端工具可以即时刷新的特性。从去年的"比较抵触桌面端的 RSS 阅读工具"到现在离不开 GreatNews , 这个变化蛮大。

淘宝旺旺--IM 工具

工作中必备的工具。作为一款面向电子商务的 IM 工具，淘宝旺旺还是很称职的。IM 工具的发展就像手机一样，一个功能非常繁复的产品未必能让所有人喜欢，相反，能满足大部分普通用户需求的产品也自然能占领一大部分市场。在 07 年，阿里巴巴的 IM 产品肯定会对业界有很大冲击。

SecureCRT--远程终端工具

虽然开源工具 PuTTY 很棒，但是 SecureCRT 仍然有不可替代性。或许很多事情用 PuTTY 也可以做到，但是效率就未必有那么好了。

Firefox 2 --浏览器(插件)

我本来对 Firefox 不是特别喜欢，不过功能丰富的插件实在是让人割舍不下。像 del.icio.us 这样每天都用的网络服务，如果没有Firefox 的插件，肯定会有一些不便利。

去年我最喜欢的几款软件，Movable Type 、Above & Beyond、Azureus 仍然使用频率很高，并且短期内不会更换掉。

--EOF--

15:23 新年快乐！ » Google 黑板报 -- Google 中国的博客网志

发表者：Google（谷歌）黑板报小组

Happy 2007!

15:10 数学之美系列十八－矩阵运算和文本处理中的分类问题 » Google 黑板报 -- Google 中国的博客网志

发表者：Google 研究员，吴军

我在大学学习线性代数时，实在想不出它除了告诉我们如何解线性方程外，还能有什么别的用途。关于矩阵的许多概念，比如特征值等等，更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法，还是看不到可以应用的地方。当时选这些课，完全是为了混学分的学位。我想，很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究，我才发现数学家们提出那些矩阵的概念和算法，是有实际应用的意义的。

在自然语言处理中，最常见的两类的分类问题分别是，将文本按主题归类（比如将所有介绍亚运会的新闻归到体育类）和将词汇表中的字词按意思归类（比如将各种体育运动的名称个归成一类）。这两种分类问题都可用通过矩阵运算来圆满地、同时解决。为了说明如何用矩阵这个工具类解决这两个问题的，让我们先来来回顾一下我们在余弦定理和新闻分类中介绍的方法。

分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词，或者说实词的向量，然后求这两个向量的夹角。当这两个向量夹角为零时，新闻就相关；当它们垂直或者说正交时，新闻则无关。当然，夹角的余弦等同于向量的内积。从理论上讲，这种算法非常好。但是计算时间特别长。通常，我们要处理的文章的数量都很大，至少在百万篇以上，二次回标有非常长，比如说有五十万个词（包括人名地名产品名称等等）。如果想通过对一百万篇文章两篇两篇地成对比较，来找出所有共同主题的文章，就要比较五千亿对文章。现在的计算机一秒钟最多可以比较一千对文章，完成这一百万篇文章相关性比较就需要十五年时间。注意，要真正完成文章的分类还要反复重复上述计算。

在文本分类中，另一种办法是利用矩阵运算中的奇异值分解（Singular Value Decomposition，简称 SVD)。现在让我们来看看奇异值分解是怎么回事。首先，我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。这个矩阵中，每一行对应一篇文章，每一列对应一个词。

在上面的图中，M=1,000,000，N=500,000。第 i 行，第 j 列的元素，是字典中第 j 个词在第 i 篇文章中出现的加权词频（比如，TF/IDF)。读者可能已经注意到了，这个矩阵非常大，有一百万乘以五十万，即五千亿个元素。

奇异值分解就是把上面这样一个大矩阵，分解成三个小矩阵相乘，如下图所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X，一个一百乘以一百的矩阵B，和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来也不过1.5亿，仅仅是原来的三千分之一。相应的存储量和计算量都会小三个数量级以上。

三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关的一类词，其中的每个非零元素表示这类词中每个词的重要性（或者说相关性），数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章雷之间的相关性。因此，我们只要对关联矩阵A进行一次奇异值分解，w 我们就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）。

现在剩下的唯一问题，就是如何用计算机进行奇异值分解。这时，线性代数中的许多概念，比如矩阵的特征值等等，以及数值分析的各种算法就统统用上了。在很长时间内，奇异值分解都无法并行处理。（虽然 Google 早就有了MapReduce 等并行计算的工具，但是由于奇异值分解很难拆成不相关子运算，即使在 Google 内部以前也无法利用并行计算的优势来分解矩阵。）最近，Google 中国的张智威博士和几个中国的工程师及实习生已经实现了奇异值分解的并行算法，我认为这是 Google 中国对世界的一个贡献。