Source favicon23:53 再谈个人门户 » Xerdoc Together
原来试验室的一个朋友就要开题了,题目竟然与“个人门户”有关,这让我很是惊讶了一下。老板竟然允许开这样的题目了?呵呵。 前两天看过Zheng的一篇文章《个人门户的未来》,深有同感,引用于此。 微软提供了操作系统,有很多公司在此操作系统上开发各类软件,用户在操作系统内通过各种途径获得软件并安装使用。这是一个桌面世界的共生系统。 现在,微软和Google正在尝试把这种共生系统帮到Web上来。在Web中,Live.com和Ig,类似于“操作系统”(只是一个作用上的类 比,但不排除这两家公司会朝这方面发展),他们提供了API让人们可以开发嵌入/安装其中的应用。而这些应用背后的服务,仍旧在各自的Web服务器上。 我现在已经能想象得到,会有收费的模块出现,类似于现在的商业软件。不过不同的是,对这些服务商来说,web只是服务。界面上的事情,跑到Ig或者Live.com那里处理。 Google的IG和微软的Live.com本身还会在增强,包括多页面的支持等,或许他们会让它越来越庞大,甚至显得有些臃肿:) 由此来看,现在出现的许多基于RSS的web个人聚合服务,只能算是过渡,要想生存下去,必须尽早转向G和M已经走去的那条路。 最近一直在想,有些想法如下: 服务驱动 (Service Oriented); 品牌优势。如果想做Platform,就需要别人的认可。Google和Windows都是认知度很强的品牌(品牌是非常核心的竞争力,为什么Sun后来的产品线都用Java来命名呢?); Google ig和微软的Live.com都提供了自己的API (Google ig API, Live.com API ),Gadget则相当于原来操作系统中的各种应用软件; 良好的生态系统。有人去做各种Gadget(免费的,商业的),有人利用这些Gadget,An architecture of participation; 数据远程存储。丰富的个人信息以及浏览数据,这也带来了信息主动推送的可能性。 这是双方在同一起跑线上的脚力:争夺Developer -> 争夺User(Customer) -> 争夺Advertisers (Partners)。重要的是:品牌+平台+API。 附:我的一些有关“个人门户”的Post。 © Meng Yan for Xerdoc Together, 2006. | Permalink | No comment [...]
Source favicon23:19 开放标准的经济学基础 » Blog on 27th Floor
Groklaw的介绍

2000年,Rishab Ghosh在荷兰University of Maastricht创造了FLOSS(Free/Libre and
Open Source Software)这个词,当时欧盟正资助这方面的一个项目。做为后续,他领导了FLOSSPOLS项目,这个项目开展了一项最大规模的有关政府使用自由软件的调查。然后他们提交了一份技术经济学论文,主张根据经济效果来定义“开放标准”:自由与开放软件:政策支持--FLOSSPOLS,开放标准与互操作性报告。

该论文解释了为什么开放标准对竞争很重要,为什么标准必须允许所有可能的竞争者都能在平等的基础上运作,即他们必须拥有平等的实现标准的能力;同时文章还说明在大多数自由/开源软件能促进竞争的软件市场中,只有当标准也同样地向开源软件开放时,这个标准才是开放标准。这项研究还观察了政府采购政策对经济的影响,以及他们对竞争的影响,最后文章还提供了一些制定有效政府的指导。

Groklaw得知这个论文之后,向Rishab提出请求,由他提交了一份摘录版放在网上(此段以下)。全文则应到原网站获取。

概要

本文提供了对标准及标准制定过程的一般看法,描述了技术标准的经济影响--包括事实标准在内--并分析了不同它对竞争的冲击以及不同层次的标准所带来的好处。本文认为在最近一些政策争论中出现的“开放标准”一词已经只能称为“标准”;如果没有额外的经济影响存在,也没有必要再发明一个术语。

本文认为开放标准的恰当定义是,它有明确的经济影响力,既能允许“自然”垄断的形成,同时也能确保技术提供者之间的完全竞争。这是一个明确的经济效果,所以它应该用一个单独的术语来描述,也就是“开放”,而不是普通的标准--本文中暂且作为“半开放标准”。

文章解释了为什么开放标准必须允许所有可能的竞争者都能在平等的基础上竞争,在这个基础上,他们都能平等地得到实现标准的能力;以及为什么这样就会要求不同的市场应有不同的措施。在大多数软件市场上,自由/开源软件都能刺激竞争,在这种情况下,开放标准只能是那些向开源软件平等开放的的标准。

研究人员制作了公共采购案例来支持开放标准,根据实际的投标情况分析还提供了实例,另外还有根据对政府官员的调查,对采购政策如何影响软件市场竞争进行了分析。最后,文章提出了制定可促进开放标准和互操作性的政策的指导意见:

1. 开放标准应根据其经济效果定义:支持技术提供商及相关产品和服务的全面市场竞争,即便会因为技术而产生自然垄断。

2. 软件的开放标准应同自由/开源软件的许可协议兼容,以促成这个经济上的效果。

3. 公共采购准则中应明确排除对专有技术的兼容要求,而代之以对不同供应商产品之间的互操作性要求。

4. 对电子政务来说,开放标准应该是强制要求,而对其他软件或服务的公共采购来说,开放标准亦应成为首选项。


论文摘录

在信息社会中,许多技术会有网络效应:单个用户的效益会随着其他用户的加入而得到增强。比如电子邮件系统对一个用户的价值就很小,但当它可以发信给许多用户时,它的价值就随着用户数量的增长而强烈增长。这部分超出单个用户的价值,就是网络外在价值,也就是由于网络效应而额外增加的价值。

对新兴技术来说,网络效应同时也是进入的门槛。如果一项新技术可以提供比老技术极其显著的好处,它可以被接受。但由于网络外在价值的存在,一项广泛应用的技术的价值是巨大的,任何新技术都会因为缺乏用户基础而受到阻碍。如一个新的邮件系统必须有远超现有系统的好处才能抵消它缺乏网络的不利因素。在网络效应极为显著的应用中,比如电子邮件,这个门槛几乎不可能突破。事实上,我们现在用的Email系统已经有20多年没有任何变化了。

网络效应也带来一种自我增强的过程,它对替代技术来说也是一种阻碍,并且它会引起这种产品占绝对优势地位,也就是“自然垄断”。垄断对消费者并不是好事,但许多领域的自然垄断则可能提升整体福利,也就是说多种互不兼容的技术会让用户不能互相联系。但是,垄断实际上处于一个攫取网络外在价值的地位上--尽管这个外在价值并不属于单个用户使用的产品或服务,但垄断者仍会倾向于提高产品的价格,其心理依据就是这种网络价值。比如一个可让你同数亿人联系的邮件系统就可能比一个只能同几千人通信的系统要价高。因此,因为我们要长时间容忍电信企业的垄断,所以电信就得接受监管,以限制它对抗消费者利益的自然趋势。

另一个获得网络效应的方法是从特定产品中抽取外在价值。这是通过把产生网络效应的特征分离出来,并保证不把它限制在一个产品中使用,而是让不同的生产商都能生产,而通过一个互操作性的标准来保证网络外在价值的产生。这种方法在理论上可以产生一种技术上的自然垄断,但竞争仍然在可以互操作的前提下兴旺发展。

这里的问题是技术可互操作的垄断有可能与权利相关,而权利持有人也可能是生产商之一(或一个生产商协会)。这些权利可能被用来获取垄断利润,这就会妨碍由使用标准而来的产品竞争。就是说如果拥有这些权利的人想从标准的使用上获取垄断利润的话,他对使用这些标准的用户来说是有反竞争的优势的。

……

如果标准的权利持有人也是一个产品供应商的话,他就会有强烈的愿望去设定一个许可条件,以便让最强有力的竞争对手处于不利地位。因此,虽然自然垄断可以带来产品和服务上的竞争,但这些竞争将限制在标准技术持有人的控制之下。

……
作为替换,标准也可以是理论上的,这里技术用户们组成一个协会(也许带有公共利益委托的性质),经由这个组织的认可,在技术上形成一种自然的垄断。此类可定义标准的实体有ITU,ETSI,IEEE,W3C,IETF等。这种理论标准的权利持有人当然有兴趣也有能力通过垄断地位来控制这个产品的市场,他们这样做也是很可能的。

……

基于以上讨论,我们可以根据3种技术框架所能取得的经济效应来定义它们:

1. 专有技术:在市场上形成的自然垄断技术。这类技术通常成为事实标准,也被称为专有标准。当技术只能为权利所有人得到时,就形成这种垄断,通常也造成技术所有者的统治地位。

2. (“半开放”)标准:由事实标准或理论上的标准技术而形成,但基于这种技术的产品仍有市场竞争存在,当然权利所有者仍可能拥有支配地位。我们在这里把它区别于下一个类别,其中包括了由大多数业界和国际标准化组织所设立的标准。半开放标准的权利向所有参与者开放,而不是真的所有人独占,当然,其中很可能存在一些条款给予所有一些额外的好处。

3. 开放标准:技术上的自然垄断,但与之相伴的是市场上的产品与服务的全面竞争,并且对权利所有人并不授予额外优势。这只有在所有参与者都可平等获取此技术时才可实现。它通常会在条款中给予所有潜在的参与者以任何商业模式使用此技术的权利,这就让所有参与者能在与所有人相同的层次进行竞争。由于不存在某些参与者更有优势的情况,这就把自然垄断同产品供应商之间可能的垄断区别开来。

……

公共采购与竞争

软件购买者对互操作性的偏爱可能会同软件采购的条件冲突,明显的或是暗含的,特别是在评论软件是否能同前期购买的软件相兼容的时候。如果采用这样的准则,而不是通用的对开放标准的要求或是对独立于供应商的互操作性的要求,买家就仍然会被锁定在前期所购软件的框架中。

倾向于兼容性也可能违反公共采购的原则,因为如果技术是专有的或半开放的话,要求“同前期已安装软件兼容”就意味着更偏爱同一供应商。相反,如果要求基于开放标准的互操作性就更符合公共采购的原则。2004年,欧盟委员会发现一个硬件的公共采购上要求“英特尔或同类”微处理器,甚至还有按英特尔规格的时钟频率的要求,却根本没有说明英特尔根本不符合欧盟的法律。……应用于硬件采购的原则当然也可应用于软件采购,特别是在同专有软件的兼容要求十分普遍的情况下。

对这个课题进行实证研究已经超过本文的范围,但我们还是搜索到TED──欧盟的公共采购门户网站上列出了149个招标方在对象中包括了微软。下面我们进行一个简短的分析,以说明公共采购中要求兼容专有软件、而不是开放标准的互操作性,有多么强的压制竞争的效果。

1. 反竞争从采购进程一开始就存在,这个进程可能会要求投标者购买专用软件。比如2005年就有一家苏格兰企业招标方要求“可用纸面或电子格式(通过软盘,使用微软Office兼容产品)”。当然,这比之于要求公民也要购买专有软件才能获得基本的政府还不是太坏,但这样的采购过程对软件市场的竞争显然是不利的。

2. 一个典型的偏向于使用某种专用技术的投标人的例子是,2005年Fife理事会要求“使用Macromedia Cold Fusion 和 Microsoft SQL来构建一个交互式网站”。这种反竞争的偏好相当普遍,即便没有明确说出来──为欧盟委员会提供网站的招标方要求网站必须同europa.eu.int也就是欧盟的门户相兼容。由于这个门户是使用了专有技术的(包括ColdFusion),所以就又推出了一个偏向于某些供应商的政策。这一例子向我们展示了如何锁定供应商,以及反竞争的效应是如何在公共组织被锁定时超出公共领域之外的。当然,最终这一网站的招标可能是完全竞争的。但由于它没有要求开放标准,因而使得所有其后的招标都具有反竞争的特性,并且偏向于拥有那一技术的供应商,不管是直接还是间接。

3. 这里有一个2005年Eurojust的例子,这是一个欧洲的国际间组织,它有一个图书馆自动化系统,这个例子可以告诉我们以前购买的专有软件是如何让后面的采购偏向于同一种专有技术的。它在招标中明确声明要兼容以前的技术:“使用基于Intel的服务器,运行Windows 2003,工作站运行Windows XP……所有软件都必须能在此环境下运行。Eurojust强烈倾向于微软SQL,以便让软件的变动最小。软件必须能同微软Active Directory集成……”很明显,这里强烈偏爱微软及其客户。如果早先的采购使用了开放的标准,新系统就可以只要求能同原开放标准互操作即可,这样就不会对单独的供应商产生偏向效果。

4. 对供应商的偏爱也会很明确:2005年意大利财政部的一个招标中要求“微软Office的使用许可”。看上去这是个有竞争的招标,但所有竞争都发生在微软的分销商之间。

5. 这种明确的偏爱也会极端。有时甚至会不进行况标。2005年,Hessische Zentrale für Datenverarbeitung同微软爱尔兰公司签订了269万欧元的合同。这一过程的理由简单地说就是:产品或服务只能由一家投标人提供,原因同保护专有权利有关。很明显,如果专有技术被当成了采购条件,出于“保护专有技术”的原因,就只有权利所有人能成为供应商。

据欧盟委员会法令,“在公共采购中,仅在不可能清晰描述一产品时,方可使用一个品牌名”。确实,唯一准确描述专有技术──如微软Office或Macromedia ColdFusion──的方法就是使用它们的品牌名字。但在采购中指明这些名字,而不是独立产品的技术,无疑是反竞争的。正如欧盟声称的CPU应按性能标准选择,而不是根据 时钟频率一样,软件和服务也应当基于技术而不是产品进行选择。

Copyright © MERIT, University of Maastricht. Distributed under the Creative Commons “Attribution-NonCommercial-ShareAlike 2.0” Licence. http://creativecommons.org/licenses/by-nc-sa/2.0/
Source favicon21:42 Xiangyang Marketing will be Shutdown? » Wangjianshuo's blog
On the Shanghai Airlines flight from Shanghai to Beijing, I read the news on Shanghai Morning Post that Xiangyang Marketing will be shutdown soon. I have a mixed feeling of the news. Due to Fake Goods According to the news, the reason to shutdown the market is because of too many fake goods in the market. 8 of 10 complain received on counterfeit goods are reported to be happen in Xiangyang Marketing, the commercial department said. It is absolutely reasonable...
Source favicon21:41 2005 年关注的几个个人门户 » DBA notes
虽然 2005 年已经过去,但是还是觉得有对过去一年总结的必要(有趣的是,这几天查看 Web 服务器日志,很多人居然是通过'个人总结'来到本站的)。这篇写一下过去一年中,我经常访问的几个个人门户。这里提到的"个人门户"是我的个人化的概念,只指 Blogger 的个人站点。通过该站点 Blogger 组织个人信息。
Source favicon21:30 Gang of Four all gone » Danwei RSS 1.0
gang_of_four_s.jpg
Yao Wenyuan (bottom right) is dead

Yao Wenyuan, the last living member of the Gang of Four is dead. According to Xinhua, he died of "diabetes" on December 23, but the news was only released today.

Danwei's favorite Chinese blog, Massage Milk, had this to say about him:

Yao Wenyuan was the most cultured of the Gang of Four, but when cultured people do bad things, they are far worse than when uncultured people do them.

Xinhua had this to say about him:

He was sentenced to twenty years imprisonment by a special tribunal of the Supreme People's Court in 1976, with political rights deprived for five years. He was released from prison in October 1996 after serving full jail term...

...The youngest gang member, Wang Hongwen, died of liver cancer in a Beijing hospital in 1992 while serving a life sentence.

Zhang Chunqiao died of cancer on April 21, 2005, at age of 88. He was given death sentence with a two-year reprieval by a special tribunal of the Supreme People's Court in January 1981, and his sentence was commuted to life imprisonment with political rights deprived for life in January, 1983, and was commuted again to 18 years in prison with political rights deprived for 10 years.

Jiang Qing was sentenced in 1981 to death with two-year reprieval. But the verdict later commuted to life in prison. Ten years later she hanged herself while on medical parole.

Links and Sources
Source favicon21:18 Newsvine自助新闻中心 » WebLeOn's Blog
Newsvine所提供的服务很有意思,它整合了Digg及BSP的功能,为用户提供了一个强大的信息交流平台。



Newsvine的目的也在于信息共享,它可以像Digg那样由用户提交信息并按照用户提交的次数来排列新闻。不过Newsvine的功能要强大得多,它还为用户提供了一个非常完整的Blog功能,包括二级域名、分类、Tags等,可以把Newsvine当成一个不错的Blog系统来使用。当然,在Blog中的文章也都可以非常方便的提交到Newsvine的新闻系统中。



Newsvine不但为用户发布信息和内容提供了很好的环境,在Newsvine里阅读新闻也有种种的方便。Newsvine对新闻按照主题和地域进行了分类,而阅读某一Tag的新闻也只需要输入http://www.newsvine.com/tagname这样的地址就能直接访问。另外,你还可以使用Watchlist来跟踪某个主题、Tag或者是作者的文章。



Newsvine在正式推出是,还将引入广告收入共享机制。文章的作者将得到高达90%的广告收入!值得一提的是,Newsvine似乎已经邀请了不少专业的新闻工作者来撰写新闻。Newsvine是否会再创造一个像Digg那样成功的信息分享模式,还是很值得一瞧的。
Source favicon20:46 7-Zip 自由的压缩软件 » 桑林志
告别盗版又一步。7-Zip 压缩软件拥有极高的压缩比,基于 GNU LGPL 发布,是完全免费的软件。 7-Zip 的主要特征: 更新了算法来加大 7z 格式的压缩比 7-Zip 是基于 GNU LGPL 之下发布的软件 支持格式: 压缩及解压缩:7z、ZIP、GZIP、BZIP2 和 TAR 仅解压缩:RAR、CAB、ARJ、LZH、CHM、Z、CPIO、RPM 和...
Source favicon13:53 飞戈顶啊 » 【刻录事】
飞戈这家伙可真神,好玩的东西一个个的推出,好像顺手拈来似的;不仅神,他们还挺怪,作者写似乎就是为了验证自己的技术,而对于市场,经营之类的东西好像不大兴趣。看来不是些有钱的玩主,就是些技术狂。 这两天他一定在新玩具:顶啊(dingr.com) 上狂顶新闻,累了,还叫我来一起顶。 这个“顶啊”走的是digg的社群计算的路线,他们自己介绍说“力图为你提供即时最佳新闻的网站,是一个你可以自由发布你的新闻的网站,是一个由你决定什么是头版新闻的网站. 在这里你可以自己决定什么是最热门的话题.你也可以发布和推广你自己的新闻,个人站点和博客.” 我觉得不是很准确,是可以自由发布,但什么是头版,什么是最热门,却不是由个人来决定,而是由参与的群体的偏好来共同决定的。我把这种对信息的过滤称之为“社会计算”:一群四处奔忙的蚂蚁,他们在信息的垃圾山中找寻宝物,然后聚在一起,而我们这些没时间的人,就能够作享他们分拣的成果。 不过这里有个问题,凭什么让用户成为网站的蚂蚁?激励在哪里?在这方面,顶啊似乎还没处理到。 从我个人的角度来说,要让我成为蚂蚁,首先我得在顶啊得到对我有增值的服务,就像我在del.icio.us中,首先是我得到对我自己书签的管理,然后才谈得上社会性的分享社群的浮现。所以,顶啊必须考虑为用户带来什么,毕竟纯粹利他的人少之又少。 我倒是建议,他们做个人新闻的收藏,然后根据收藏的内容分析用户的嗜好,从自己的社群,从google或者百度的新闻搜索中符合用户口味的新闻给用户。这样一来,用户就可以把它当作自己的新闻网站,也能够从中再筛选自己兴趣或希望推荐分享收藏的内容,从而提高整个社群的质量。 另一方面,如何加强整个社群的建设,也是一个必须要考虑的问题,顶啊必须提供有效的途径让人们去交流。这方面slashdot或许可以参考下。 呵呵,这个顶啊之后,飞戈的下一个玩具会是啥? 顺便说一下,很想提交几个新闻,可是现在的提交方式太麻烦,能不能做个浏览器的书签,点一下就飞过去阿?
Source favicon13:50 就唠叨几句 » SOHO小报--小精子-最新20篇博客文章-全文

随着政府打击非法运营黑‘摩的’力度的加大,某些老百姓觉得,自己的生活越来越不方便了。以前,每天早上我都是黑‘摩的’运营者的上帝,我踏着清晨的春风骄傲的走在路上,沿途很多黑‘摩的’向我挥手拉我上车去地铁,我会选择一辆最干净的上去。而现在,黑‘摩的’是我的上帝,每天我都要在路上等很久也不一定来一辆,来了之后还会拒载。哦,天哪天哪天哪,本来受到的尊敬就不多,现在还少了黑‘摩的’这个大群体。

很拿波的是,京广桥最近漏了一个大窟窿,道路封闭,不坐地铁基本在上午时段到不了公司。哦,说到那个大窟窿,我很感兴趣,有没有三八消息可以分享阿?我就听说是一下子道路塌陷了,直径30米22米深的一个大洞赫然出现在了路中央。照常理,这应该只是故事的一个中段儿,全篇是这样的:

一个漆黑的夜里,天空中突然出现了奇异的橘黄色闪光,闪光飞速的从银河系冲进了太阳系,并且冲破了大气层,‘嗖’的一下子以迅雷不及掩耳盗铃之势降落到了京广桥附近。随着一声巨响,京广桥下的大窟窿出现了,浓烟散去之后,窟窿里面应该有一个闪着金光的高科技蛋。于是政府迅速赶到封锁了现场。之后的故事请参阅‘星球大战’。

Source favicon12:53 Make Sure You're Not Building A Carboat » Jeremy Zawodny's blog
While discussing a product at work today, Caterina said something that really stuck with me. For whatever reason, I like her analogies. They work for me. We were discussing a recent example of a product group that was trying to do what amounts to merging two things that really ought to be distinct. The end result, as you might imagine, is a product that does neither thing well. She called that "building a carboat." And that immediately conjured up...
Source favicon08:58 Vista 上報了 » Vista 2.0

這週不但是我的生日週,好像也是我的媒體露出週。週一(1月2日)以「電子相簿達人」之姿上了中國時報,今天(1月6日)則看到工商時報刊登了之前我接受中時部落格「部落格人物」的專訪內容。感謝媒體朋友們的青睞,在此一併謝過了!欣喜之餘,更讓我感到戒慎恐懼。2006年的第一週,料想不到以這樣的方式揭開序幕,前瞻這嶄新的一年,我明瞭自己的路正遠。嗯,無論是部落格圈或者網路界的變化都太快了,可得要更加專注在努力學習這回事上!我想我會永遠記得所謂的「葛洛夫法則」,也就是「唯偏執者倖存」(Only the Paranoid Survive)這句話依舊適合現今的社會吧! 註:點選照片後,可以看到我在flickr上加上的一些註解,謹供參考。

07:00 2006/01/06 07:00:00TraCQ洽谈通搜索力指数排行榜 » TraCQ洽谈通搜索力指数
 搜索引擎  搜索力指数  排名升降  份额

1. Baidu

 
 158006402

  
  

 62.03%

2. Google

 
 30164966

  
  

 11.84%

3. 3721

 
 26065082

  
  

 10.23%

4. Yahoo

 
 22046942

  
  

 8.65%

5. 163

 
 6113042

  
  

 2.40%

6. Sogou

 
 5754518

  
  

 2.26%

7. QQ

 
 2755034

  
  

 1.08%

8. China

 
 1346414

  
  

 0.53%

9. iAsk

 
 1245698

  
  

 0.49%

10. Zhongsou

 
 585350

  
  

 0.23%

11. Tom

 
 340010

  
  

 0.13%

12. Yisou

 
 302174

  
  

 0.12%

13. Sohu

 
 6530

  
  

 0.00%

14. Sina

 
 134

  
  

 0.00%
Source favicon03:19 Cooper正式加入豆瓣团队 » 豆瓣blog
Cooper已经默默无闻地为豆瓣工作一段时间了。今天cooper正式加入豆瓣团队,负责豆瓣的推广、合作等对外事务。欢迎Cooper. 同豆瓣网站演变式的成长一样,我们的团队也一个一个丰富起来。在豆瓣的第二年快要到来的时候,我们会更加努力为大家服务,并感谢所有用户纷呈的精彩给我们带来的快乐。
Source favicon01:02 推荐关联RSS的方法 » Web2.0Focus, 关注该关注的...

所谓关联RSS, 就是和某个RSS内容相关的一个或多个RSS。在RSS订阅时,获得与之相关联的RSS,既节省了用户寻找RSS的时间,也扩展了阅读器订阅RSS的范围。

这种方法类似于我们在搜索引擎上做基于关键词的搜索。通常,我们输入某个关键词后,搜索引擎在输出搜索结果的同时,还推荐了相关的关键词。在Delicious上查找TAG时,也会给我们相关的TAG。上述的关联关键词或者关联TAG通常是比较准确的。我们同样可以利用上述关联的方法来做RSS的推荐。

一般来说,我们需要一个强大的RSS数据库,它最好是一个封闭的系统,比如一个RSS阅读系统,有着可以用于统计的用户数据。

我们做关联RSS的立足点是,一个用户订阅的RSS一般来说是兴趣集中的。以某一个RSS为出发点,我们获得所有订阅了该RSS的用户,并统计所有用户针对该RSS的相关订阅(更准确地,是该RSS所属分类的所有RSS,以用户所设置的分类为标准),通俗的描述就是“订阅了该RSS的用户,还在此分类中订阅了…”。

如上述方法统计的RSS/RSS数量分布结果为高斯分布,获得的统计数量较多的RSS即为相关RSS。在用户订阅RSS时,可以列举一定数量的RSS推荐给用户。

另外一种获得关联RSS的方法是RSS搜索引擎处理自己的数据,获得某RSS的关联RSS。这需要RSS搜索引擎(而不是Blog Search)采集海量的RSS数据。

搜索引擎所做的第一步是获得RSS数据,分析RSS数据。一般来说,带有RSS条目DESCRIPTION的RSS足以反映RSS的特点,甚至仅仅含有RSS条目TITLE的RSS也是可用的。通过分析(中文RSS需要分词),获得RSS的带有权重的关键词。上述处理过程中,如果有足够的资源,可以进一步获得RSS所指的文章的内容做进一步分析。

第二步是RSS数据的预处理过程,即通过RSS关键词的相似性分析,获得一个正则化(Normalized)的RSS-RSS相似性数值,最后获得某RSS的最相近的RSS列表。这个处理过程同样需要耗费相当大的资源,所以以采用某些RSS作为种子(Seed)RSS处理,可以节省计算时间。所幸的是,RSS相似性分析对实时性要求不太强烈。分析一次关联RSS后,“有效期”可以持续很长时间。

对于Blog用户,OKRSS则采用了分析Blog用户页面的方法获得关联RSS,此方法假定的前提是Blog用户和他所提及的RSS是关系比较密切的。这种方法对于那些Blog上链接了RSS的用户比较容易获得关联RSS,但是对于只链接了其他用户Blog网址的用户,则需要借助于OKRSS采集的海量RSS数据库。此方法首先是利用RSS做RSS - Blog用户主页对照表,然后采集分析用户日志,获得可能的URL,把URL映射回RSS,以获得RSS的关联RSS。

 

Tags:
Source favicon00:11 垃圾邮件的防止 » 搜索引擎研究

博客邮箱终于开发完毕,到现在为止,博客网的两个产品我最满意,一个是图片博客,另外一个就是这个博客邮箱,这两个产品都是2005岁末开发完毕的。

博客邮箱现在尚处于测试阶段,我的博客邮件地址是 luliang@bokee.com ,已经开始使用了 :)

当然,有搜索引擎就有spam,同样,有邮箱就有垃圾邮件。如何防止垃圾邮件呢?

1.Blocking 阻断
阻止包括多种做法,主要的阻止是smtp的IP进行阻断。国际上常常定期公布spam IP list,这些要么是恶意的spam IP或者是被人利用作relay。
另外阻止email address也是常用的一种做法,就是简单的将发信人的email address进行阻止。

2.IP 反查 和用户反查
对发信的IP进行域名的合理性反查
对发送用户的email 地址的有效性进行反查
对邮件对话进行有效性的检测

3.名单
白名单:安全名单
黑名单:spam 邮件名单
灰名单:进行一次的阻止,并等待对方的email server的第二次尝试。因为通常的spam很少进行第二次的发送尝试,而健全的email server则会在第一次投递失败后会再次重新发送。

4.贝叶斯统计算法
这个是根据相关性的原理,对非垃圾邮件和垃圾邮件进行分词词频的相关性统计,得到相应的共同出现时成为垃圾邮件和非垃圾邮件的概率。

5.联结目标源
联结垃圾目标源的邮件有可能是垃圾邮件。

6.邮件运营商根据内容进行数据挖掘
大量的邮件几乎完全一模一样,可能是群发的垃圾邮件
根据用户自己定义的垃圾邮件的规则应用在全部的邮件上
根据大量的用户自己挑选的垃圾邮件进行训练,得到词频序列,并对新进的邮件进行比较测试最大似然。

7.基于分类模型的检测
跟贝叶斯异曲同工,各种的分类算法这里就可以用得上了。

参考文章基于内容的垃圾邮件过滤技术综述

这里的7条,挂一漏万,如有补充,请回复。

Source favicon00:10 小容的数字化2005(1) » 大学小容2005

Tag=,

小容昨天晚上统计了一下2005年在网络上写的文字和发布的东西,放在这里供回顾。今天先回顾发表在网站的正式文章。

•发表在品牌几何BrandVista.com里的文章4篇:

1、法定名称、商标、商号、和品牌名称
2005年5月13日 (看起来算是最完整的一篇文章)

2、Interbrand鲜为人知的故事
2005年5月22日 (简短的CI行业背景介绍文章,“未完成”的系列之一)

3、Lippincott Mercer,当品牌识别遇上战略管理
2005年6月25日(另一篇CI行业背景介绍文章。最新可以Update的消息是Lippincott Mercer推出了他们的中文网站。)

4、即将到来的百度品牌保卫战
2005年8月11日 (其实是以电子邮件形式写的,在小容的电脑本地里只是一篇规划好的文章的第一部分,列入“未完成”事项。)

•发表在摩登福州NextFuzhou.com里的文章0篇:

摩登福州NextFuzhou.com在上半年编辑了一期电子杂志以后,在2005年6月17日的时候暂停更新,不过继续将内容保留在网络上。因为好象是卸掉了一幅担子,没有责任的驱使,发现自己在2005年没有写出像走出美丽的数位次元世界个人在网络空间的职业生涯转变软件外包的福州竞争优势这样自己喜欢也满意的文章。

最想写而没有写的1篇文章题目是:

-1、此间的涂鸦少年(列入“未完成”的事项)

小容在年初的时候看到每天经过的洪山桥头有一片的涂鸦,于是找了一个周末跑过去将它们全部拍了下来。看到那些图片以后联想起“80年代”的一些话题,包括社会主流舆论对80年代的看法,以及80年代对社会的看法……起这个题目实际只是引子,更想就此写几个自己在现实生活和网络世界中认识的80年代,以及和其中一个家伙交流的80年代营销话题的几个方面。

估计要全部写成一个图文并茂的自己满意的东西,可能要花上10天半个月也不一定。因此,找个时间将照片发布上来倒是可以先做的准备步骤:)

明天开始发布关于写在blog上的文字的统计资料。

Source favicon00:09 休息,休息一会儿 » SOHO小报--小精子-最新20篇博客文章-全文

今天特困,休博一天,MV继续强档推出。
明天MV下线。上《小强历险记》。
精彩花絮,不容错过。


^==Back Home: www.chedong.com

<== 2006-01-05

==> 2006-01-07