Source favicon23:42 无人售书的创意 » laolu

无人售票都习惯了,但无人售书肯定算是一个创意。无人售票其实不是无人,有司机管着钱箱,无人售书还真是无人,但收钱的盒子竟然还在。。。

Source favicon21:43 自然的链接 » Blog on 27th Floor
把链接当作投票、重要的站点投出的票价值更高,Google就以此来算出一个页面的PageRank;搜索时Google会再配合相关性来返回结果。这里有个疑问,就是相关性是否用于PageRank的计算呢?

换句话说,就是杨振宁推荐一个学物理的学生到某大学读书估计肯定接收,那他推荐一个学舞蹈的去能有说服力吗?一方面讲,他是重量级人物,说的话自然是重要的;另一方面,好像也没听说他懂舞蹈。就像某副总谈素质教育,某委员讲哲学,大家也都是姑妄听之,一笑置之。

就链接来看,一个在A门类里重要的网站是否会链接一个B门类的网站呢?以往网站都具有相当公众性质的时候,这种大体不会发生,就像Slashdot就只链接它的同门兄弟;但现在情况大大地不同了,更大量的网站是个人网站,人与人之间产生关系的可能性非常多,绝不仅止于专业门类。一个现实生活中很好的朋友找上来说链一个吧,你会说不行吗?也许你对他写的东西并不怎么懂,对她看中的帅哥也不怎么感冒,但你还是毫不犹豫地加了链接,这都是很随手的事,尤其是在个人Blog里面。

于是一个谈Linux的Blog向一个谈电影的Blog投了票,这个票能得几分?是否也像它投向另外的LinuxBlog站有一样的权重呢?

链接除了表明在知识、意义上有两个站点有相关之外,我想还表明一些个人的社会关系。大公司、组织的网站之间可能没有这种关系,但个人的网站怎么可能会没有这种关系呢?Google的帮助里说它的算法可以区分“自然的链接”和“非自然的链接”,那这种社会关系算是自然还是不自然呢?Google的目标是组织全世界的知识,这种网页背后的人际关系算不算知识的一种呢?

我觉得这当然是自然的链接,用Google的一个判定标准:如果没有搜索引擎,你还会这样做吗?答案当然是肯定的。但这种关系似乎对知识没有太大的帮助,就跟官员管教育就自认懂教育一样没有说服力。

同一个页面上Google还说了,它不会给任何页面手工分派关键字。这也有理。但前一段就有人发现两个不同的例子,显示Google似乎也有区分页面意义的行动--现在这两个方法似乎都没用了,包括type tiger那个以前确实见过的。当然啦,这应该都是程序做出来的,并不是手工。

我觉得这个工作很重要,也就是杨振宁保荐舞蹈学生没有什么意义,而他保荐物理系学生就绝对重要,如果不能区分物理和舞蹈两个门类,这个判断就没有办法进行。

也许这个考虑已经包含在Google算法里了?计算机都算得那么辛苦的东西,外人很难判断了。
Source favicon21:10 Tour de France goes 3D with Google Earth » Official Google Blog




I don't know about you, but with the action and excitement heating up in the Tour de France, it's hard to keep track of exactly where everybody is riding. When you're trying to understand the Herculean effort that these cyclists go through in stages like L'Alpe d'Huez, or which streets in Paris the final stage will pass through, 2D maps just aren't as compelling.



But now you can make sense of it all by flying around the route yourself. A new KML file available on the official Tour de France website lets you see the entire course overlaid on satellite imagery for Google Earth.



This special Google Earth tour is available in French, German, and Spanish as well as English. Pick your language on the Le Tour site, and once you've done that, look for the "Tour on Google Earth" link in the lefthand navigation under Route. Then you can see the starts, the finishes, even information on each of the cities along the way. Just move the KML file into your "My Places" folder on Google Earth, and follow along day by day. (Did you know that Huy has the unique privilege of hosting stages for the Tour de France, the Giro and the Tour of Belgium this year? We didn't either.)



Be sure to try out the tilt feature to see the truly daunting magnitude of all of those climbs where riders are battling it out in this year's wide-open race. "Beyond Category" climbs? No thanks -- we'll stick to the flats and leave those verticals to the pros!
Source favicon17:09 昂貴、艱辛與無聊:小心數位資料落差 » ilyagram
Lukhnos 的文章〈公共衛生、演講技巧、資料的共享〉記載了 Hans Rosling 教授在加州 Monterey TED 的演講:令人驚嘆。超越 keynote、powerpoint 與高橋流,像是世界杯現場球評講解、或者如 b6s 所說的,氣象主播,讓你了解全球貧富差距的關係。 演講中有一段描述他所成立的組織 Gapminder,關於未來公共統計資訊傳播方式的願景。取代目前公共資料、統計資訊讓人看不見意義的現況:公共資料要付出昂貴代價、使用過程非常艱辛、產生的結果相當無聊。 這段很精彩的演說段子如下: ...We find that students get very excited when they can use this, and even more policy makers and coporate sectors would like to see how the world is changing. Now why doesn't this take place? Why are we not using the data we [...]
Source favicon15:39 ICE-高效的中间件平台,牛刀小试 » 一个藏袍
ICE(Internet Communications Engine)是ZeroC提供的一款高性能的中间件,基于ICE可以实现电信级的解决方案。前面我们提到过在设计网站架构的时候可以使用ICE实现对网站应用的基础对象操作,将基础对象操作和数据库操作封装在这一层,在业务逻辑层以及表现层(java,php,.net,python)进行更丰富的表现与操作,从而实现比较好的架构。基于ICE的数据层可以在未来方便的进行扩展。ICE支持分布式的部署管理,消息中间件,以及网格计算等等。 大道理讲完,言归正传,最近育儿网新增了不少新服务,服务间经常会需要相互调用数据,例如用户中心要取博客系统里的文章啊,论坛里发文后要在积分系统里增加用户积分啊。由于设计时这些服务仅仅基于统一的用户中心,服务间基本是独立的,所以要实现这些调用只能在每个服务上新增为其它服务提供服务的服务-_-!。这个时候有几个可选方案,我们开始选择了xml-rpc,基于http和xml的选程调用,用了一段时间,发现维护成本和访问性能都存在问题。 由于这些中间服务部署的时候是和各自所属的服务部署在一起的,对这些服务做整体的改动就非常困难,要维护起来就比较麻烦。另外由于是什么http和xml作为通信协议,由php实现业务逻辑,性能问题也很明显,而且这些http请求都会在http日志留下足迹,导致我们的日志分析很不精确。这个问题不是太大,但很郁闷,所以我们考虑使用ICE来解决这个问题,至于SOAP什么的就不考虑了,同样效率低下。 实现的过程还是比较顺利,花了三天的时间用c++实现了大部分常用的接口,服务端采用deamon的方式运行,错误日志记在syslog里(/var/log/messages),客户端PHP,编译进去了IcePHP,调用的方法很简单。现在还存在一些问题,运行的时候会异常退出,还需要一段时间来解决,暂时加了只狗看着,一旦进程里没了就重新启动。 既然要跨平台通讯,就涉及对象描述,ICE使用Slice来对结构,类,方法等进行定义。完了以后服务器端,客户端都按这个来调用和实现。ICE内置的Linux 下后台Deamon实现方案非常简单,只需要从Ice::Service里派生出一个类来,实现run方法,在这个方法里创建adapter对象,并在adapter对象里添加Servants,然后激活这个adapter就可以了,网络层的通信都由ICE接管了。由于是基于tcp/ip的直接通信,比更高层的http通信效率要高很多。 在客户端实现时,我们也碰到了一些小麻烦。一个是内置的$ICE对象用的时候有时需要用global声明,否则可能会出错,另外由于默认情况下Slice中struct对应到php的类型是一个类的实例,而不是一个数组,所以在赋值给页面的时候,smarttemplate以及其它模板系统中可能都会存在问题,可以通过修改模板系统的数据赋值显示代码解决。 我们做了一些性能的测试,同样运行1千次请求,使用xml-rpc实现需要28秒左右,使用ICE实现,只需要3秒多,性能的差距还是很大的,同时在这个过程中没发现有内存泄露的情况,效果还比较理想。 最后感慨一下,ICE是适合人类使用的中间件!...
Source favicon12:00 Armchair travel with Google Pack » Official Google Blog


Even though I've lived in one city my entire life, I've always loved to travel and experience all the languages and cultures around the world. So it's been exciting to be a member of the team responsible for making Google Pack available internationally.

I'm happy to tell you that starting today Google Pack is available in Australia,
Austria, Brazil, Canada, France, Germany, Hong Kong, India, Italy, Japan, Korea, Mexico, Netherlands, Spain, Switzerland, Taiwan, and the U.K. It includes a batch of useful software like Picasa (for organizing your vacation photos), and Firefox (for safer web browsing). And it comes with Google Updater, which keeps all the Pack programs current so you don't have to. Maybe with all the time you save, you can do some travelling of your own.
Source favicon11:54 On Vision » 王建硕

Nearly everyone takes the limites of his own vision for the limits of the world. A few do not. (Join them.)

Arthur Schopenhauer, Source: The other 90%. How to unlock your vast untapped potential for leadership and life, Crown Business, 2001. quoted on page 154 of The Seven Secrets of Inspired Leaders. How to archive the extraordinary by the leaders who have been there and done it.

Source favicon11:05 百度空间首页上线 » 一个藏袍
兄弟我为了早日一睹百度空间芳容,前些天写了个脚本5分钟刷新一次http://hi.baidu.com,当http返回200的时候给我发邮件,10点55分的时候收到第一封邮件,本以为可以用了,哪知道只能看到个首页,真是失望啊。 值得一提的是kongjian.baidu.com和hi.baidu.com同时上线,内容相同,而非之前所说的使用hi.baidu.com而不用kongjian.baidu.com。...
Source favicon08:37 Google的个人搜索趋势 » 变态家族

刚发现这个叫做Search History Trends的东西, 可以分析你的最常见的搜索, 最常访问的网站, 你的搜索时段, 还可以将这些做成方块图。 当然, 也可以加到你的个性化主页ig上去

说到这个搜索的记录, 真是很神奇, 我从去年五月份有Gmail帐号以后的所有搜索历史就全记下来了(在我登录gmail帐号的情况下, 大部分时候都登录了)。 回头看看, 这些关键词可以很轻松地帮助自己回忆起当时那个时候生活片段的种种细节。

不过, 也只有无聊透顶的时候才会去翻自己一年前的搜索记录的。 但是这个记录确实给平时的搜索活动带来了一定的影响, 那就是我搜索xxx内容的时候, 总是会去用baidu。 这也可以理解, 人总是不愿意在自己的历史里面留下让自己的儿子/女儿觉得自己不伟大的东西吧。

这个故事告诉我们, 为什么名人的自传看起来都那么的完美……

08:00 2006/07/06 08:00:00TQ洽谈通搜索力指数排行榜 » TQ洽谈通搜索力指数
 搜索引擎  搜索力指数  排名升降  份额
1. Baidu  152688642     63.19%
2. Yahoo  29494294     12.21%
3. Google  19653226     8.13%
4. 3721  18431038     7.63%
5. Sogou  8375570     3.47%
6. QQ  6664550     2.76%
7. MSN  1561722     0.65%
8. 163  1535886     0.64%
9. Tom  1407138     0.58%
10. iAsk  1136886     0.47%
11. Zhongsou  605066     0.25%
Source favicon02:00 Picasa Web Albums: no more 6GB accounts? » Googling Google
As the observant Blogoscoped readers spotted, a link that once prompted users to upgrade their 250MB Picasa Web account to 6GB has recently disappeared.  Could Google be getting ready to make this upgrade free?It would be a welcome gesture if this is actually in the cards, but it could also be a sign they are [...]
Source favicon01:22 六度分隔与最短路径 » 搜索引擎研究

【最短路径】

圆明园的北部有一个迷宫,据说古时候每次有庆典在圆明园的时候,皇帝会派一些宫女走迷宫,看谁最先走到迷宫内的亭子,会有不错的奖赏。

迷宫问题对数学家们来讲虽然是小儿科但在计算机课程上却非常重要,因为不同的求解会涉及到递归,广度优先和深度优先等算法。

迷宫毕竟是一个放置在2维空间的有限联系的网络,也就是说,迷宫里的每一个点,最多只和周围的4个点(上下左右)发生关系,而且这些点的位置是固定的。

六度分割通常用来描述一个广阔的社会网路(SN),现在大部分的社会网路服务都提供了搜索功能,即搜索出一个用户到达另外一个用户的最短路径,也就是找出这两个用户之间通过最少的用户的链接。

一般的SN提供的搜索都是4度的,也就是例如A-B-C-D-E 称为4度的分隔。提供5度搜索和6度搜索的几乎寥寥无几,当然一方面是5,6度分隔的用户很少,大部分的用户都应该在4度内,另外一个方面是5,6度分隔的搜索在实际计算上也涉及非常大的运算量。

【SN搜索算法】

如果说寻找两个人之间的最小分隔的路径和寻找最短路径可以类比,那么唯一不同的是SN上每个节点的联系可以非常的广阔,不只是上下左右,而是十个甚至上百个联系。这是是一个多维空间内的最短路径的寻找。假设一个用户平均有n个好友,那么粗略估计一个用户的4度好友大约有n×n×n×n+n×n×n+n×n+n ~ n^4,无疑是一个非常恐怖的数目。因此采用传统的递归的方法显然是不大现实的。

当然,事情并非这么麻烦,有简洁的方法可以加快找到用户之间的最小分隔:不单是从一个用户搜索,而是从两个用户同时搜索,而看两个用户的2度之内的用户是否有相同:
A-B-C
E-D-C
A和E的处在在两度分隔的用户基本上数目估计都在n的平方。问题变成了比较n^2和n^2之间有没有相同,这个计算的时间等同于2×n^2的排序所需要的时间。

【SN索引】

那么能否继续加快速度?
当然可以,可以提前对用户的好友进行索引,对好友的好友进行索引,这样在未来进行关系的搜索时会大大加快:

A: {A1} {A2} A1为A的好友的集合,A2为A的好友的好友的集合
E: {E1} {E2}

那么
1度分隔为: A 属于{E1},等同于E属于 {A1}
2度分隔为: A 属于{E2},等同于E属于 {A2},{A1}{E1}有共同项。
3度分隔为: {A1} {E2}有共同项,等同于A属于 {E2}
4度分隔为: {A2} {E2}有共同项


【SN关系的更新】

当然,发现是一个核心问题,另外一个问题就是更新,因为SN的关系不会是一成不变的,在一个活跃的SN社区里,每天用户之间的关系的更新更是可观。这里只考虑关系添加的例子:

A: {A1} {A2}
E: {E1} {E2}

当A 与 E 直接建立了好友关系后,应该说整合系统的关系全都变化了,因为这个新的关系一定会导致一些关系的短路,从而导致很多现有的关系的调整。但是因为我们只存储2度分隔以内的关系,也只关心两度分隔以内的关系,因此当发生了一个新的关系后,2度内关系的变化一定是A和E本身或者他们的一度关系的用户,再远的用户将不受这个关系的影响。

因此首先 所有{A1}的元素的二度分隔集合里要加上E,所有{E1}的元素的二度分隔集合里要加上A。

然后是二度的修正。分别加上对方的1度。
{A2} = {A2 + E1}
{E2} = {E2 + A1}

最后是一度的修正:A, E 的 一度{A1}{E1}需要加入E,A:
{A1} = {A1 + E}
{E1} = {E1 + A}

整体操作的量大约在2n次操作,比我们通常认为的要小的多 :) 。

BTW:这里是我在博客网的好友网络,大约40人左右。

Source favicon00:01 网上过点TDF2006的眼瘾 » Blog on 27th Floor
tour de france 2006 stage 2 a horse rider
环法自行车赛2006已经开赛数天,却一次转播也没有看上,新闻也少有报道。其实自行车是很好的运动啊,代步也是必不可少啊。在北京我想10公里以内,不一定比公共汽车慢。

并且法国这个老牌资本主义国家,把所有国土都收拾得跟花园似的,起码自行车赛经过的地方都非常漂亮,就当风景片看也是不错的。国内这么多自行车厂家,应该大做广告,然后央视就会放直播了吧。

好在有网络,还可以看上一点。

首先是Google Earch,有人早做了kmz文件,可以显示赛程;还有这个csc车队,提供各赛段的kml文件下载,然后可以沿着赛段飞一下,如果飞得不好,还可以下它提供的视频文件。

然后是Flickr,在查询中输入“tour de france 2006”可以出来不少比赛的照片,不错的,上面那张也是偷来的。

再者是Youtube,也能查到一些视频,就是小了点,也不是很清晰,时间又短,网速又慢,也就算是过点眼瘾罢了。

还有Wikipedia,有TDF2006的专门页面,信息真是全。

^==Back Home: www.chedong.com

<== 2006-07-05

==> 2006-07-07