« 2005年03月 | (回到Blog入口) | 2005年05月 »

2005年04月 归档

2005年04月11日

WordPress的中文RSS FEED日期问题:不符合rfc 822的星期

今天用Lilina订阅 http://in.comengo.net/index.php/feed/的时候发现一个RSS日期问题:RSS规范要求日期必须为rfc 822格式,而http://in.comengo.net/index.php/feed/是基于WordPress的后台吧:由于本地化的设置,日期的星期变成了中文: , 01 Apr 2005 16:38:03 +0000 会导致RSS解析器的时间解析失败。最终不得不放弃了这个站的订阅,否则这个网站所有文章全部变成最新发表而排在Lilina的最前面。

按此阅读全文 "WordPress的中文RSS FEED日期问题:不符合rfc 822的星期" »

2005年04月12日

FeedBurner: 使用RSS路由器的风险

如果你日常使用Del.icio.us这样的书签进行Link Blog,同时又使用MTWordPress这样的工具进行网志,使用FeedBurner的确是一个很方便的工具:他可以帮你将各种RSS数据源聚合起来并“烧制”成一个汇总后的FEED。从这些角度讲:FeedBurner是一个RSS的缓存/路由器和聚合器。

我看到很多朋友都将自己的RSS转向到汇总后的FeedBurner:就是FeedBurner会逐渐让分散的BLOG FEED再次集中化。但只要是集中化的服务就会带来这样的潜在危险:如果FeedBurner出现连接问题,很多BLOG和订阅者之间的连接都会收到影响。

按此阅读全文 "FeedBurner: 使用RSS路由器的风险" »

[转载]:博弈论与纳什平衡

博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。

纳什(John Nash)编制的博弈论经典故事"囚徒的困境",说明了非合作博弈及其均衡解的成立,故称"纳什平衡"。

所有的博弈问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人(players)又称参与者;当事人所做的选择策略 (strategies)是承认了杀人事实,最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人,另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到的是中间的结果。

类似的: 我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。

按此阅读全文 "[转载]:博弈论与纳什平衡" »

2005年04月13日

免费杀毒软件下载:AVG Avira Avast

推荐:免费杀毒软件AntiVir
2009-01-29 更新:自从avg 8开始在firefox中增加类似于搜索结果安全预先下载检查后,这款软件已经有些向病毒发展了;还好有另外一款免费杀毒软件:小红伞,请到 freeav.com 下载
2009-02-18 更新: Avast有简体中文的免费版下载

共享给最近饱受病毒折磨的朋友们……使用杀毒软件之前:首先是一定要去Windows Update升级最新的补丁程序和养成不运行任何外人传来的可执行程序的习惯(即使下载软件也要尽量去软件的官方网站找最新版本下载)。给计算机使用不熟练的朋友安装系统:也尽量要给他们设置成用户而不是管理员权限使用。其次有些机器运行很慢并非是病毒造成的:而是Windows自身的一些程序的失败重试造成系统运行缓慢,例如: svchost.exe / spoolsv.exe

以前用的是Norton AV,安装后速度的确有一定影响。直到去年:同事介绍使用免费的AVG(目前只有英文界面),的确能查出一些Norton查不出来的木马程序,而且自动更新的速度也很快。是捷克的一家公司的产品。官方下载地址:点击下图下载: http://www.download.com/AVG-Anti-Virus-Free-Edition/3000-2239_4-10320142.html
avg.png

Download.com下载地址:
http://www.download.com/AVG-Anti-Virus-Free-Edition/3000-2239_4-10645435.html

按此阅读全文 "免费杀毒软件下载:AVG Avira Avast " »

Lilina的简单预缓存加速

何东也安装了一个LilinaInfo-Aggr for Hedong,他觉得太慢。

如何加速呢:Lilina的RSS更新是一种动态触发的缓存更新机制,当每次有用户访问请求的时候,lilina检查cache目录中相应RSS的缓存,如果没有缓存或者缓存过期了,就立刻去服务器上取。而慢一般就慢在这个RSS的同步上了,比如:每天早上第一次访问,所有的RSS都需要更新,而订阅的RSS又非常多的情况下速度就非常慢了。 减少每次访问时触发RSS更新的几率是提高速度的关键。

我的方法:
1 使用wget导出成静态页面或者按照一定时间强制RSS更新
我在crontab中增加了:
# chedong's homepage
*/10 * * * * (/usr/bin/wget -O - http://www.chedong.com/)
这样后台就能每10分钟去取一次RSS结果页,这样:一般用户看到的时候可以大大降低没有命中缓存的情况。"wget -O -"表示输出到标准输出,完全可以改成 wget -O /home/path/to/lilina/index.html 这样用户就直接访问导出的index.html了,和PlanetPlanet效果一样。

2 将缓存时间设置为4个小时过期(缺省为1个小时):这样每次访问的时候同时又多个RSS同时过期的几率就会小很多。

具体做法是在Lilina的输出脚本中增加'MAGPIE_CACHE_AGE'全局变量:
单位是秒 缺省是3600秒 比如要改成4小时
define('MAGPIE_CACHE_AGE', 60 * 60 * 4);

其实大部分BLOG每周只有少量更新,达到4个小时的同步延迟速度已经足够了(Google的新闻的更新周期才3个小时)。

3 控制你的RSS数据源个数:
如果RSS有上百个,Lilina每次都要检查上百个的缓存文件,所以即使缓存文件都是最新的,检查过程也会非常漫长。我个人觉得控制在RSS在20个以下比较好,建议经常删除一些你不关心的或者更新很慢的BLOG。

4 客户端浏览器本地缓存:
在lilina输出程序的开头增加以下Header:
// always modified now
header("Last-Modified: " . gmdate("D, d M Y H:i:s") . " GMT");
// Expires one hour later
header("Expires: " .gmdate ("D, d M Y H:i:s", time() + 3600). " GMT");

告诉浏览器:这个网页1个小时后才过期,一个小时内不要再向服务器发送请求,这样如果一个用户在一个小时内多次访问的话,也不会向服务器发送多个请求了(直接利用浏览器本地的缓存)。关于客户端缓存和服务器端缓存机制,可以进一步参考一下缓存设计一文。

按此阅读全文 "Lilina的简单预缓存加速" »

2005年04月14日

周日:潭杯山-潭柘寺拉练

参考:周末户外活动 -- 10月19日(周日)圈门-潭杯山-潭柘寺-苹果园超长距离拉练之: 圈门-潭杯山-潭柘寺 一日穿越

穿越路线:
从苹果园坐326 370(车票一元路程越40分钟)到门头沟圈门终点站,下车后即上潭杯山——龙潭——潭柘寺 然后坐车回家。

按此阅读全文 "周日:潭杯山-潭柘寺拉练" »

MSN推出带有自动类聚功能的搜索引擎

对于搜索结果的丰富程度有2个方面,一方面是搜索引擎的索引量,不进入索引肯定是搜索不到的;另外一方面是展现:如何在有限的范围内(比如 top 10)消除重复/或者近似的内容,展现更多样性的结果。目前的搜索引擎已经利用了一些简单的类聚方式提高搜索结果的广泛性,比如:
根据站点域名类聚:每个网站的相关结果只显示1条或2条,如果需要缩小搜索范围,可以使用[站内搜索]获得更多内容;
根据网页内容标题/摘要进行类聚:在搜索过程重相同标题的网页或者网页相似内容的结果将被省略掉,这样用户就有可能看到后面更多样的结果了;
相关搜索:增加更多的关键词,帮助缩小搜索范围,这可能也是搜索引擎逐渐都增加了“相关搜索”的原因吧;

从MSN Search Blog上看到:msnsearch's WebLog : Search Results Clustering

试用了一下:的确非常不错
自动分类技术将是下一步改善搜索效率的一个很重要的方面,因为很多用户面对搜索出来的成千上万条结果没有一页一页的翻找的耐心,而又不会使用更多关键词帮助缩小搜索范围,这样搜索引擎搜索出来的内容真正被用户使用的,可能只有最前面很少的一部分。

如果说目前的海量网页搜索引擎只是帮助用户找到了和快速定位到一些已知问题的目标,那么对于一些模糊信息,如果搜索引擎根据内容能将头几百条中的内容按照一定特征“类聚”起来,相当于帮助用户快速浏览了TOP 1000条结果,帮助用户在更大范围内帮助快速缩小搜索范围并定位到需要的主题。

所以我感觉自动分类技术相当于在不增加索引量的情况下进一步提高搜索引擎的广泛度和可用度。

按此阅读全文 "MSN推出带有自动类聚功能的搜索引擎" »

2005年04月16日

TraCQ:缩短电子商务的最后一公里

是从搜索力排行榜认识TraCQ的:他们的数字还是非常有依据的。

仔细看了他们的服务,发现TRACQ的在线客服是一个很新颖的模式:
tracq.png

简单的说:TraCQ的在线客服就是网页=>即时通讯工具的服务。这个在线用户反馈入口可以部署在企业网站的每一个网页上,而企业客服人员可以通过即时通讯工具直接对正在浏览网页的客户进行即时在线客户服务

这可能让很多人想起了最早ICQ的WEB入口工具:你可以通过部署一个简单的JavaScript,你网站的客户就可以从一个在线表单中直接给你的ICQ发送留言。(后来这个功能被大量的spam bot所淹没)

但是在线即时消息的接口的确是有其潜在商业价值的:国外也有提供类似服务,比如:www.chatango.com

假设有一个客户找到了你的网站(比如从搜索引擎),他会如何跟你联系呢?目前传统的手法可能是电话联系,这就需要你在所有网页上都不一定有联系或者定购方式,即使有:如果用户是一个外省的客商,肯能因为长途费用而放弃当前的进一步询问。

对于一般商家来说:申请一个800免费电话服务可能是非常贵的,但如果是一个直接部署在网页上的在线呼叫中心服务就是一个相对成本较低的解决方案。

按此阅读全文 "TraCQ:缩短电子商务的最后一公里" »

2005年04月17日

网站头像: favicon.ico

很多人问过我:你的网站在地址栏中的那个图标是怎么弄出来的?
这个文件就是在WEB根目录下的favicon.ico文件:
http://www.example.com/favicon.ico

很多门户网站都有这个文件。
我觉得它的作用和MSN中的人物头像类似,可以称作“网站头像”吧。

Favicon以前只是在IE收藏时会用到,但现在很多多窗口的浏览器都支持,比如我使用的AvantBrowser
favicon_ab.png

目前很流行的FireFox:
favicon-firefox.png

Favicon可以方便用户在很多窗口的时候快速定位到他需要的那个TAB:人对图像的识别速度还是比抽象的文字还是要快很多。

favicon.ico文件生成还是有些难度的:它不是标准的位图文件,需要用专门的favicon编辑器生成。我很喜欢的一个在线favicon生成器服务:直接上传你喜欢的图片,直接生成16*16像素的favicon.ico文件,还有在线预览功能。

按此阅读全文 "网站头像: favicon.ico" »

2005年04月18日

GMail的中文界面

从WebLeOn's Blog: 看到:Gmail正式支持多国语言gmail-chinese.png

按此阅读全文 "GMail的中文界面" »

2005年04月20日

the Selfish Gene节选:第五章 进犯行为:稳定性和自私的机器

搜索博弈与纳什平衡: 中提到《自私的基因》一书,其中很多案例堪称生物界“纳什平衡”的范例。节选:《稳定性和自私的机器》一章如下:其实我觉得互联网和生物界一样也是一个原始的丛林,极端自私并非是一个最好的策略选择……

按此阅读全文 "the Selfish Gene节选:第五章 进犯行为:稳定性和自私的机器" »

2005年04月21日

登录了Google,反而不知道该搜什么好了……

Google Blog:Google推出了搜索的历史记录的查询:
history-google.png和a9.com的服务不同:不仅是关键词的记录,还有对搜索结果点击的记录(包括时间)。这次Google将你的Search Session完整的记录下来了,的确比my.search.yahoo.com方便不少。

按此阅读全文 "登录了Google,反而不知道该搜什么好了……" »

保护原创性:支持你!文心

写于4.20 | Owen's Blog - 文心: 如何保护原创性? 我想不能依赖道德规范,更重要的是技术(包括法律)。另外,我已经很久无法给在你的内容上留言了……难道被blacklist了?

按此阅读全文 "保护原创性:支持你!文心" »

2005年04月22日

Partition Magic的EXT3问题:在笔记本上装Linux最好还是用ext2

看了Fedora Core 3 Linux on Thinkpad T42这篇文章后,终于明白了为什么Partition Magic会出 Error 117. Partition's drive letter cannot be identified.错误信息:原来是遇到了ext3分区的缘故,我没有精力将原来安装的Debian转成ext2然后再转回来。于是只好将Debian的分区利用Windows的管理工具都删除了在再用PM进行分区。重新启动后,Grub出错,用Windows XP安装盘重新引导一次就好了(不用安装)。

所以:如果在桌面系统上安装Linux学习:最好还是用一些比较经典的文件系统 像ext2,这样万一那天有需要重新划分硬盘分区,可以省缺不少麻烦。

按此阅读全文 "Partition Magic的EXT3问题:在笔记本上装Linux最好还是用ext2" »

2005年04月23日

Google在暗示一下代搜索技术?

Google Blog上看到:
In fact generally we focus on the next generation of Google's crawling and indexing technology. We've got hard-core statisticians pondering how to measure search quality more accurately, and a slightly nutty project that we think might revolutionize the way that we organize and search structured information.

统计专家在Google一直是非常重要的角色:除了一直长期跟踪用户点击外,最近的个性化搜索历史更有助于从注册用户中从GMail后台人与人的邀请关系之间分析用户使用行为。但其中说到的:slightly nutty project是什么呢?会不会是自动分类……

按此阅读全文 "Google在暗示一下代搜索技术?" »

2005年04月27日

NotePad老彩蛋:利用.LOG制作DeskLog

从Moslem那里看到的:Happy Accident ?!:转载如下
如果听过新东方老罗语录,不知是否记得其中的一个“Happy Accident”的片断? 最近一堆事好不容易处理完了,中间偷了点空闲,无聊至极打开 Notepad 玩,无意之中点了一下帮助,发现 Notepad 还有这样一个特性:在文件的头部加上“.LOG”,这样每次打开文件时,焦点都会自动定位到文件结尾,并加注当前日期。有时间可以试试,比较有趣。现在才明白“记事本”(Notepad)是原来是这么个意思。

我尝试了一下:非常方便,立刻就介绍给了其他同事。注意:第一行.LOG一定要大写并顶头开始!(估计NotePad的log模式触发就是通过判断一个文本文件的头4个字节是不是".LOG")
dot_log.png
在Windows XP/2000下测试通过。

按此阅读全文 "NotePad老彩蛋:利用.LOG制作DeskLog" »

2005年04月29日

RSS: 简单协议使得互联网可编程

2001年有关于肯德基的炸薯条断顿的事件报道。从中可以看到一种更高效的管理体系:对于快餐店这样全球性企业来说:要保证各地提供的薯条品质基本一致,成本最低的方法肯定是依靠机器而不是厨师,如果薯条机处理的土豆形状不一,机器的复杂程度和维护成本都会很高。所以土豆必须严格符合工业标准才能让结构比较简单的薯条机生产出符合标准的薯条。RSS和肯德基的土豆标准是一样的,体现了社会分工的细化:简单/可靠的规格意味更低高效的分工和更丰富的应用。

什么是RSS: Real Simple Syndication最能体现RSS的本意
对于应用服务的开发者来说:应用和应用之间,企业和企业之间交换的数据好比就是土豆,白菜,按照严格的XML标准设计的接口的确能大大简化下游开发的后期加工机器成本:可以比较一下处理HTML网页的浏览器,比如:IE和FireFox等软件安装后大小都在10M以上,但一般处理XML的解析器工具包一般都在几百K就够了。这点在未来2,3年,随着移动终端的发展,像手机这样的硬件配置比较低的设备环境中显得尤其重要。

套用生产/代理/零售模式:而将这各个环节高效联系起来的:正是RSS/XML相关标准。
生产商:RSS生产者包括Blog / 新闻网站等;
代理商:RSS聚合服务: FeedBurner/ RSS搜索服务 TechnoRati
零售商:RSS阅读器(RSS Reader/Browser)
从中也可以看到一些MVC(The Model-View-Controller)模式的影子。

下面一些例子:看看RSS如何让互联网变得更加丰富

按此阅读全文 "RSS: 简单协议使得互联网可编程" »

2005年04月30日

Attention.XML: 由用户点击统计的行为分析想到的

我看了:Attention.XML - RSS延伸技术 | Owen's Blog - 文心

点击统计对于用户行为分析的确非常重要,而Google很早就开始记录用户在搜索结果中的点击,但是即使是基于客户端JavaScript触发的点击统计也是很容易伪造的:不是有Referer SPAM吗?作为搜索引擎会如何利用基于用户点击统计的分析成果呢?我想有可能是基于Social Network的信用机制运用到搜索引擎的分级机制中,从某种程度上可以称之为TrustPeople机制吧。

按此阅读全文 "Attention.XML: 由用户点击统计的行为分析想到的" »

RSS在线服务的一些发展方向

首先声明:我并不是RSS的Heavy User,但是我常去gRaSSland找一些blogger的热门话题。

在线服务 Vs. 客户端:
客户端的确是可以方便一些将RSS做为日常工作高端用户。但是和EMail一样:习惯基于WEB界面的Email还是要占大多数,所以在线服务还是会胜出的。而RSS阅读功能最后会被大多数EMail客户端所集成,比如目前的ThunderBird。
rss_thunderbird.png
RSS做为再发布平台:BlogLines/FeedBurner
bloglines_feeds.png

按此阅读全文 "RSS在线服务的一些发展方向" »

关于 2005年04月

此页面包含了在2005年04月发表于车东[Blog^2]的所有日记,它们从老到新列出。

前一个存档 2005年03月

后一个存档 2005年05月

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36