Source favicon20:29 现在汉语的词汇数量及分布 » Blog on 27th Floor
有水木网友把前一段谷歌拼音1.0.15版中的词库(ZIP文件)给搞了出来,就是在网有争议现在没消息的那一版。总结这些词可真也不容易,总数快有34万,应该比较能反映(大陆)汉语的现状(不知道他们分析时抓的网页有没有包括港台以及海外中文网页),也就是说常用词汇有这么34万,一般正规词典上收词不过3/4万。当然,这里面有许多不是非常严格的词,而是个短语,包含了不同的句子成分,不过既然人民这样用了,那就得承认。

总计词汇数:33,9100
单字:0
二字词:12,0603, 35.6%
三字词:11,5229, 34.0%
四字词:9,2813, 27.4%
五字词:5564, 1.6%
六字或更多字:4891, 1.4%

可以看到二字词、三字词占了绝大多数,都超过了1/3,四字词也接近1/3,再多字的就是少数。按这样的词汇数量,也和西方拼音文字的词汇量不相上下了,当然不包括那些无聊的专用名词。

数字都按4位点了点,这样符合汉语习惯,一下就能读出多少万,再上一点的话就是亿,再上面是万亿。英语用3位就要进一下,分别是千、百万和十亿,所以他们才用3位点个点的写法。

单字字数没个定论,下面是各个计算机处理汉字用的标准所收录的文字数。这些字数都很大,一般人其实都用不到这么多,3000字足以。

GB2312,6763字
GBK,21003(21886)非国家标准,CP936
GB13000,20902字(也就是ISO的标准)
GB18030,27533字
BIG5,13461字
Unicode CJK,20902字,两个扩展区,总数七万多字。

把这些词全部写成单个的字,sort|uniq之后,发现共用了 5800个 不同的汉字。这5800字按重复次数排序(没有排除一字在同一词内重复的情况),出现最多的前一百字是:

人 不 一 大 中 的 在 学 国 有 上 了 生 机 电 业 子 工 小 网
出 来 会 下 发 我 文 动 天 行 家 理 新 用 性 心 法 分 作 水
成 公 高 化 地 开 时 品 金 无 市 者 能 自 经 为 方 过 信 是
力 制 可 好 年 长 海 三 手 到 数 多 美 体 之 产 通 合 面 山
本 车 部 要 得 物 后 个 安 路 事 说 全 教 区 外 件 道 明 名

其中,“人”字出现 7270 次,“名”字出现也有 1741 次,按最少的“名”的出现频率来算,这些字的组词数量也超过了一半(如果没有太多词内重复)。
Source favicon14:49 集体是力量的源泉,众人是智慧的摇篮 — Google(谷歌)翻译互动反馈功能升级 » Google 黑板报 -- Google 中国的博客网志


今年 2 月添加的翻译互动反馈功能升级了。之前,只有在页面翻译的时候,把鼠标停在需要改进的字句段落上才会出现 "提交一个更好的翻译"的小窗口,而现在,登陆 Google(谷歌)翻译 的页面,翻译文字也实现了对结果提供更好的翻译建议功能。

机器翻译是一个全球共认的难题,尽管科学界提出各种各样的方案、研发各种各样的翻译工具,但是百分之百正确翻译的理想仍然没有实现。在这方面,谷歌在自己大量全球数据资源的基础上使用了一个先进的机器学习及统计程序来优化谷歌的翻译系统,希望能为实现真正"平坦"的世界而努力。同样,"机器脑"总有它的局限性,为此我们增加用户建议功能,为了保证质量,虽然并不是所有用户建议都会立即生效,但是,在经过我们的判断、学习后,被采纳的那些用户提供的建议会在未来的系统更新时被整合进来,为千百万的用户提供便利。

这个新增的特性目前还只能用在谷歌机器翻译团队研发的语言之间,包括了中英互译,英语阿拉伯语互译和英俄互译。

让大家的智慧汇集成我们不断进步的动力吧!

Source favicon14:36 喜欢哪款汽车?让相关主题帮助您了解它的一切 » Google 黑板报 -- Google 中国的博客网志


近日,我们在网页搜索上新增了一个特性 — 相关主题。具体来说就是在搜索汽车品牌或具体车型的时候,在搜索结果页面最下方,相关搜索的位置会出现一个汽车相关主题。主题中包含了专业评测,图片,价格,新闻,维修保养和参数配置等一系列用户可能会感兴趣的相关信息。



点击后页面会转到相应的搜索结果中去,而汽车相关主题会出现在搜索结果的最上方,方便用户点击其它相关主题中的链接。



对于要买车的朋友和汽车发烧友来说,相关主题可以帮助您更快速更全面的了解一款车型的各种信息。

谈到相关主题和相关搜索的区别,相关主题不是简单的对搜索词本身或词义上的匹配,而是在用户搜索感兴趣的关键词时,将这一方面所有有价值、可供参考的信息系统地列举出来。可以说,相关主题更全面,明确和具体。

目前,相关主题只应用于汽车的搜索结果中,将来我们会把这个特性延伸到其它大家感兴趣的领域中。
Source favicon14:03 avatraxiom: The Problems of Perl: The Future of Bugzilla » del.icio.us/chedong
In 1998, Perl was the right choice for a language to re-write Bugzilla in. In 2007, though, having worked with Perl extensively for years on the Bugzilla project, I'd say the language itself is our greatest hinderance.
Source favicon11:40 列车时刻查询尽在雅虎搜索 » 雅虎搜索日志
作者:张长海 产品经理 4月26日,全国列车第六次大提速后的第8天,雅虎搜索的列车时刻查询上线了,搜索用户只要使用网页搜索框,就可以查询到最新、最全、最准确的列车时刻数据。 列车时刻查询是雅虎搜索捷径产品(Shortcuts)之一,捷径产品会通过对用户输入查询词的分析,确定用户的查询意图,并迅速将最有效的信息直接返回给用户。目前比较常用的功能包括:天气查询、万年历查询、IP查询、手机归属地查询。这次的列车时刻查询也是在听取广大雅虎用户的建议后上线的捷径产品。 下面给大家介绍一下雅虎搜索列车时刻查询都有哪些功能: 查询两个城市间的列车,你可以在搜索框中口语化的输入查询词,如 “北京到上海的列车”,“北京到上海的火车”;或者输入两个城市的名称加上“列车时刻”就可以了,如 “北京 上海 列车时刻”,你可以查询到北京和上海这两个城市间的直达列车时刻信息。 如果两个城市间没有直达的列车怎么办?别着急,我们会为你提供最佳的换乘方案,你可以了解到在哪个城市换乘可以最快到达目的地,如“哈尔滨到拉萨的列车”。 查询车站的列车时刻,输入车站名称和列车时刻就可以了,如 “北京站列车时刻表”,“北京西站列车时刻表”。 查询车次的时刻表,你只要在搜索输入框中输入车次名称,如查动车组 “D1 列车时刻”,这个车次的详细运行信息就一目了然了。 列车时刻查询是雅虎搜索联合铁道部下属的铁流网共同推出,今年中国铁路还将在7月、10月、12月再次对部分线路进行提速,我们将在第一时间提供最新的权威列车时刻信息,敬请期待!...
Source favicon10:53 real sustainability costs plugin » information aesthetics

real_costs.jpg
a Firefox plug-in that inserts bar charts depicting CO2 emissions data into travel related e-commerce websites. the 1st version visualizes CO2 emissions information to airfare websites such as Orbitz.com, United.com, Delta.com, etc. following versions will work with car directions, car rental, & shipping websites.

[link: therealcosts.com]

see also oil standard price translation & an inconvenient truth infographics.

Source favicon10:27 你真的会写JavaScript吗? » Taobao.com UED Team
今天看到MSDN 上的新文章:Create Advanced Web Applications With Object-Oriented Techniques 。 很久没有看到这样让人唇齿留香的好文了。上次看到的是一篇是 Douglas Crockford 的JavaScript, We Hardly new Ya (我简单翻译了一下,译文在后)。 同其他教你如何用面向对象的思想编写JavaScript的其他文章一样,该文也是着重在这么几个要素: JavaScript的对象就是一个关联数组。 JavaScript 函数也是一个对象。 原型(Prototype) 闭包(Closures) 继承/私有属性/静态方法 命名空间 作者文笔很好,英文很容易看懂,没有生僻的用词(顺便提一下,《PPK on JavaScript》作者的英文不敢恭维)。用来举例的代码也很贴切。 特别是文章的开头很有意思,作者写到他和一个据说已经写了快4年JavaScript的女程序员聊天,女程序员认为她的JS水平very good,后来作者发现她确实会写,但仅仅是会写,其实对JavaScript的内涵所知甚少。 作者想用这个例子说明,有很多具备Java/C++/C#开发经验的开发人员在编写JavaScript或者转行到FED(比如我)的时候,想当然的把那些标准面向对象语言的思想套用在JavaScript上,反而走入迷途。 对此我深有体会,我正是在真正参与了一次Ajax的项目并真正读懂了Prototype框架的源码之后,对JavaScript有了完全全新的认识。 总之,推荐阅读。附上JavaScript, We Hardly new Ya的译文,译得匆忙,定有行文不通之处,请客官见谅! JavaScript 的 new, 好久不见啊 原文: JavaScript, We Hardly new Ya  --Douglas Crockford。    JavaScript是一门基于原型的语言,但它却拥有一个 new 操作符使得其看起来象一门经典的面对对象语言。那样也迷惑了程序员们,导致一些有问题的编程模式。 其实你永远不需要在JavaScript使用 new Object()。用字面量的形式{}去取代吧。 同理,不要使用 new Array() ,而代之以字面量[]。JavaScript中的数组并不象Java中的数组那样工作的,使用类似Java的语法只会让你糊涂。 同理不用使用 new Number, new String, 或者 new Boolean。这些的用法只会产生无用的类型封装对象。就直接使用简单的字面量吧。 不要使用 new Function 去创建函数对象。用函数表达式更好。比如: frames[0].onfocus = [...]
Source favicon06:06 Manhattan story mashup game » information aesthetics

manhattan_mashup.jpg
(infosthetics @ Pervasive 2007 Conference) an urban storytelling game based on real-time interaction between mobile phone & web users. textual stories written in the web by certain people are illustrated by other people taking matching photos with camera phones, sensing the urban environment. each noun had to "associated" with an appropiate mobile phone picture within 60 seconds. each picture then had to be approved by another player.the complete stories were then displayed on a large public display at Time Square, New York, as street art. within 90 minutes, 3142 noun-photos were generated by 184 mobile phone players.

all player actions were logged & represented to detect any usage typologies (their proposed data visualization after the break).

[link: storymashup.org & storymashup.org (PDF) & nokia.com]

see also Nike interactive Time Square.

03:58 How I write a PresentationJeremy Zawodny's blog » Che, Dong's shared items in Google Reader
While going thru the process of putting the presentation for my China trip (and describing it to a friend part way through the process), it occurred to me that I have a specific method that I seem to follow each time. Before I describe it, I should point out that there are really two types of presentations I've had to create over the last few years: new and derived. As I thought about this, it occurred to me that I...
Source favicon00:04 用匿名函数避免命名冲突 » 王建硕
blockquote{color: #007000; font-family: "bogus font here", monospace;font-size: 100%; border: 1px solid silver; background-color: #f5f5f5;padding: 0.5em; overflow: auto; margin: 2em;} 本文是google.loader 代码欣赏系列的第二部分。 第一个匪夷所思的地方,可能就是这一段了if (!google.loader) { google.loader = {}; google.loader.ServiceBase = "http://www.google.com/uds"; google.loader.ApiKey = "internal"; google.loader.KeyVerified = true; google.loader.LoadFailure = false; google.loader.AdditionalParams...

^==Back Home: www.chedong.com

^==Back Digest Home: www.chedong.com/digest/

<== 2007-05-14
  五月 2007  
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
==> 2007-05-16