Source favicon22:40 Wiki is flat » 车东[Blog^2]

维基百科数据 - Charts - 汉语
Originally uploaded by Che Dong.
最近很热门的一本书:
其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;

简单比较一下传统的BBS和Blog Wiki之间的发布模式:

论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。
- web - ?Forum=1 - ?post=1
                |- ?post=2
                |- ?post=5
      - ?Forum=2 - ?post=4
                |- ?post=22
                |- ?post=8

Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档
- index - post10.html
       |- post9.html
       |- monthly_archive  - post8.html
                          |- post7.html
       |- category_archive - post8.html
                          |- post2.html
                          
由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。和论坛的发布结构非常像的有邮件列表归档。邮件列表归档也有按时间归档的机制,并且使用permalink,

WIKI完全扁平的发布格式,内容之间链接/引用丰富。
|- topic1 -> topic2
          -> topic3
|- topic2 -> topic3
|- topic3 -> topic2
          -> topic1

在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。
rss.xml  - post10.html
        |- post9.html
        |- post8.html

Source favicon22:14 点名游戏 » 搜索引擎研究

1 你小时候的理想是什么?
能够去遥远的地方

2 你现在的理想是什么?
去一个很原始的地方,远离城市

3 如果你的生命只有3天时间,你最希望完成的3件事情是什么?
a 将手头没有做完的事情交付给别人
b 写一个To do List,交给我哥们。
c 陪父母老婆去丽江

我的问题:

1.你认为你的理想会实现么?
不会。但是可以打折

2.你最近看的一本书是什么?
《西藏生死书》
3.你最近去过的公园是什么?什么时候?
圆明园,两周前
4.你最近一次和朋友喝酒是什么时候?
昨天
5.你有仔细考虑过50岁时候的你自己么?
有过
6.上一次看日出是什么时候?
去年3月

我不想点名,但是如果你希望回答,就回答吧。

Source favicon21:18 美国政府质疑网络音乐定价 » blog中文翻译
地址: http://news.ft.com/cms/s/b16d9872-aa9a-11da-8a68-0000779e2340.html原著: Joshua Chaffin翻译: 000det 美国司法部及纽约州总检查长Eliot Spitzer近期就数字音乐定价对排名世界前列的唱片公司发起了一项调查,为业界平添了几许压力。 全球四大唱片企业–环球唱片(Universal Music Group) ,华纳唱片(Warner Music) ,索尼BMG唱片(Sony BMG)以及EMI唱片(译者注:Electrical And Musical Industries Ltd; EMI百代系EMI旗下的法国PATHE-MARCONT 唱片公司) –被告知,前述单位及人士将就其数字音乐下载定价实务进行调研。 自去年(译者注:指2005年)12月Spitzer先生对上述命题深入研究后,联邦政府就展开了类似的调查。调查将着眼于唱片公司是否在定价方面行为不检,以及该些公司所谓的”最惠国待遇”条款等。 司法部一名女发言人在周五称:”反托拉斯部门正在考量音乐下载业反竞争行为的可能性。”该发言人拒绝就调查的具体问题进行评论。唱片公司表达了同样的态度。 前述”双重调查”启动的大背景是唱片公司在将传统商业模型应用于数码时代的过程中举步维艰。尽管合法的在线下载市场在过去的一年中实现了200%的增长至11亿美元,占行业收入总额的6%,但这一数字并未能抵消唱片销售的持续萎缩以及盗版对行业的侵袭。 在羽翼初展的数字市场,定价的话题成为了争论的焦点。美国苹果公司的iTunes商店控制了在线音乐市场8成的份额,他们的顾客下载每首曲目的价格是99美分,其中三分之二要落入唱片公司的口袋。 出于对消费者的考量,苹果公司采取了一刀切的统一定价体系。而唱片公司却声称要在今年4月与苹果合约期满之际,推进异价体系的进程。 类如Rhapsody等其他公司,则提供月度订阅购服务。同时,在线零售商Amazon.com在与世界领先唱片公司的谈判中势头难挡,这将为其启动自有在线音乐服务奠定良好基础。 Technorati : mp3, music, 音乐下载
Source favicon21:15 本周言论 » DBA notes
如果Linux还要保持其快速的发展,必须调整生产关系 -- 即GPL公约对她的限制 --中科红旗软件公司副总裁白柯、"Linux 领域的资深专家" 进攻基本靠走 / 传球基本靠瞅 / 停球基本靠手 / 过人基本靠吼 / 防守基本靠搂 / 射门基本没有 / 吓的门将直抖 --网友这样评论中国足球 有全球最顶级风险投资基金的支持,有成功的企业家,有来自各大公司的精英,有最具创新能力的草根 --某个"数字风格"域名的公司认为公司会成功
Source favicon17:37 Network Speed of my FTTB+LAN » Wangjianshuo's blog
Look at the PING result from the HP Pavilion desktop computer in my reading room, to the web server of this blog. C:\Documents and Settings\Jian Shuo Wang>ping home.wangjianshuo.com -t Pinging home.wangjianshuo.com [216.227.219.43] with 32 bytes of data: Reply from 216.227.219.43: bytes=32 time=402ms TTL=50 Reply from 216.227.219.43: bytes=32 time=398ms TTL=50 Reply from 216.227.219.43: bytes=32 time=414ms TTL=50 Reply from 216.227.219.43: bytes=32 time=400ms TTL=50 Request timed out. Reply from 216.227.219.43: bytes=32 time=401ms TTL=50 Request timed out. Reply from 216.227.219.43: bytes=32 time=400ms TTL=50 Reply...
Source favicon15:13 GD(google desktop)又有更新 » Ada's Blog 艾达思语
主要增加的新功能: sidebar中的email、新闻、webclips的右键菜单,增加了发送邮件和给gtalk上联系人发送邮件、消息甚至是发送panel的菜单。至此,sidebar上承载的内容,现在可以通过email或gtalk方便的发送出去。从而从个人阅读信息到形成人与人间的信息交流。 新功能含病毒传播: google还是沿袭病毒传播的方法,通过用户来做推广:所有发出去的email或消息,最后一行均为“This item was sent using Google Desktop. Find out more at http://desktop.google.com.” 病毒传播带来的好处: 通过sidebar增加gtalk用户 通过gtalk用户增加gd用户 通过email传播增加gd用户 另外,还有几个小细节改进: 拖拽到桌面上的panel可以选择“浮在最前面” photo增加“set as wallpaper”选项 ,我感觉acdsee越来越容易被取代了 设置页面增加“停止索引新文件”的选项:Disable Indexing:Disable indexing of new items. New items will not be searchable.
Source favicon15:06 Car Numbers Explode in Shanghai » Wangjianshuo's blog
I went to Decathlon at Long Yang Road Station in Shanghai with friends yesterday. It was 3:00 PM. To my surprise, the parking lot at B&Q and Decathlon area was completely packed. Not only big area (with about 10 rows of 10 cars) was full, the back yard - which typically not used are also fully parked. There are many volunteers guiding cars into the underground parking area under Decathlon. With the continuous "immigration" from Puxi to Pudong, and the...
Source favicon13:52 政府工作报告读后感(一) » 闾丘露薇 ROSE GARDEN
既然有一,当然会有二和三,只是因为这份政府工作报告,涉及的内容很多,很难一下子讲完所有的感受。
 
加上明天的华闻大直播,请来的嘉宾,是参与编写报告宏观经济部分的学者,所以今天大部分的时间,在看报告里面有关宏观经济的部分。
 
先说说今天在大会堂听pm wen读这份报告,35页,他读了整整二小时十五分钟,到最后一段,嗓子已经哑掉了。算了一下,报告获得的掌声接近二十次,在讲述农业问题的时候,获得的掌声最多,讲反对台独,获得的掌声最长,也最热烈。大部分的掌声配合得非常自然,个别几次,停顿了一秒,台下的代表才意识到应该要鼓掌了。这是中国会场的掌声文化,以后我们可以深入探讨,不过我只是希望,作为人大代表,也就是我们的立法者,千万不要只知道什麽是适当的时候鼓掌。
 
wen定出的目标,今年的gdp百分之八左右,也就是要适度微调。其实这个微调很考功夫,一不小心,就会变成通缩。归纳了一下,政府要采取的措施包括稳健的财政政策和货币政策,还有就是继续扩大内需。还有,就是和大家的生活有直接和密切关系的,固定资产投资问题,因为在这个问题里面,关键词就是土地和信贷。
 
wen没有直接说,房地产价格过高,而是说,部分城市房地产投资规模过大和房价上涨过快。不过看看内地的很多网站,把房价过高,当成了大字标题。
 
房价高和低,其实不是政府来说的,应该是由市场,不过中国内地市场的特殊性,所以房价高低并没有一个标准。
 
看看这份政府报告,政府的大方向是对的,要调整住房结构,严格控制高档房地产开发,重点发展普通商品房和经济适用房。这本来就是政府应该做的事情,政府在土地供应的使用的时候,就应该考虑到住房结构问题。豪宅的减少,可能会造成发展商利用这样的因素提高价格,但是如果豪宅毕竟只是小部分,发展商到最后自然会由供需关系来决定最后的价格,而且这只是关系到一小部份购买能力高的人。
 
扩大内需,要民众愿意花钱,从报告里面都可以看到,政府也知道,如果社会保障,医疗教育服务不跟上的话,要老百姓愿意花钱,真的有点难度。而这次扩大内需的重点人群,农民,又涉及到新农村的建设是否成功。
 
宏观调控的成功与否,和地方政府的配合以及政策执行关系密切,过去我们就看到,不少中央的政策在一些地方往往会遇到阻碍,因为地方利益的关系。这次两会,是不是能够解决这个问题,其实是政策落实的关键。这又关系到政府的架构以及官员的考核制度,其实我们可以看到,一个国家的经济发展,光有宏观政策,如果没有方方面面的配合,是不会有持有的进步的。
 
现在都说科学发展观,我的理解就是要尊重事物的发展规律,尊重事实,用科学的,逻辑的,辩证的思维方法,制定出执行性强的政策。如果看这份报告,提出的是大的方向,但是落实还需要具体的措施,包括各主管部门的制定的计划,这样民众才能够知道,政府到底能不能够做到。
Source favicon12:42 let me buy you a beer at sxsw » del.icio.us
Please join Flickr, Upcoming.org, Del.icio.us, and Yahoo!, for Happy Hour on Sunday March 12 at Iron Cactus on the corner of Trinity and 6th from 5 to 7-ish. Itll be fun! Terms of Service: Free drinks Free food Kickass...
08:00 2006/03/05 08:00:00TQ洽谈通搜索力指数排行榜 » TQ洽谈通搜索力指数
 搜索引擎  搜索力指数  排名升降  份额
1. Baidu  119533826     61.74%
2. Google  23546838     12.16%
3. 3721  21261226     10.98%
4. Yahoo  19631678     10.14%
5. Sogou  3997522     2.06%
6. China  1540390     0.80%
7. 163  1364474     0.70%
8. QQ  1364366     0.70%
9. iAsk  819682     0.42%
10. Tom  274998     0.14%
11. Zhongsou  270602     0.14%
Source favicon07:30 httpS的春天?! » CNBlog: Blog on Blog

昨天安替提醒我:GMail也要尽量使用这个地址:
https://mail.google.com/mail/

忽然想到:最近支持https的服务越来越多了,维基百科提供了一个:https://secure.wikimedia.org/wikipedia/zh/wiki/
其他语言的也有:
https://secure.wikimedia.org/wikipedia/en/wiki/
https://secure.wikimedia.org/wikipedia/ja/wiki/

这样看:SourceForge不也可以访问嘛吗?
https://sourceforge.net/

sf的子域名没有提供https访问支持,而且到下载镜像选择地址的时候也会遇到阻尼:需要手工书写一下下载镜像地址 比如,下载转向地址为
http://prdownloads.sourceforge.net/freemind/FreeMind-Windows-Installer-0_8_0.exe?download
实际地址可以使用以下镜像:
http://umn.dl.sourceforge.net/sourceforge/freemind/FreeMind-Windows-Installer-0_8_0.exe

Source favicon00:46 PublishWebPlugin < Plugins < TWiki » del.icio.us/chedong
TWiki的静态页面生成插件: 终于找到了对付流氓spider的办法。不得不将所有的twiki操作设置的用户认证,否则网站实在要被view撑坏了。
Source favicon00:13 Recap of SES NYC's Earning from Search & Contextual Ads » JenSense - Making Sense of Contextual Advertising
I was in New York City all last week for Search Engine Strategies, and spoke on the "Earning from Search & Contextual Ads" panel. Barry of Search Engine Roundtable has his usual session by session rundown of the conference, including...
Source favicon00:05 Web 2.0 编程思想:16条法则 » blog中文翻译
原文:Thinking in Web 2.0: Sixteen Ways 作者:Dion Hinchcliffe 1、在你开始之前,先定一个简单的目标。无论你是一个Web 2.0应用的创建者还是用户,请清晰的构思你的目标。就像“我需要保存一个书签”或者“我准备帮助人们创建可编辑的、共享的页面”这样的目标,让你保持最基础的需求。很多Web 2.0应用的最初吸引之处就是它的简单,避免并隐藏了那些多余的复杂性。站在创建者的立场,可以想象Google的几乎没有内容的主页,还有del.icio.us的简单的线条。从最终用户的角度来看,与之齐名的就是Diggdot.us所提供的初始化页面。你能够并且希望加入更多功能,但是先做好最开始的。在一个时候只做一个特性,完成一个目标。这听起来很太过于单纯化了,但它将使你更加专注,而且你也会明白我的意思。 2、链接是最基础的思想。这就是我们称之为Web的一个理由。链接是把Web中各种实体连接起来的最基本的元素。你的信息、你的关系、你的导航,甚至是能够被写成URL的任何内容。这里有一个链接应该遵循的规则(其实你也不必严格的遵守): 1. Web上的任何东西都是可以被URI或者是URL所连接的。 2. 把所有的链接都保存为他的原始出处,这样可以让你与任何人、在任何地方、任何时候都能分享它。 3. 第二条中任何时候的前提是链接必须是持久的,它不会在没有任何缘由的情况下被改变或者是消失。 4. 链接应该是人类可读的、稳定的、并且能够自我诠释的。 3、数据应该属于创建它的人。是的,你听我的。任何用户创建的、贡献的或分享的都是他们自己的,除非他们很明显的放弃这个权力来让你自由处置。他们贡献到Web上的任何信息都应该是可编辑的、能被删除的、并且能够取消共享,无论在任何时候,只要用户愿意。这也包含了那些间接的数据,像他们所关心的记录、日志、浏览历史、网站访问信息,或者是任何可以被跟踪的信息。所有的网站必须清晰简单的陈诉那些信息是用户创建的,并且提供他们停止创建的方法,甚至是清除的方法。 4、数据优先,体验与功能其次。无论它是文本、图片、音频还是视频,Web最终还是把这些解析为数据。换句话说,你无法脱离数据去呈现内容。所有这些数据都通过那些易于发现的URL来定位(参见第2条)。通过另一种形式来看待这些,Web最终是名词优先,动词其次,虽然最近正在向动词偏移。来看看名词的例子:日历的条目、家庭照片、股票价格。还有一些动词的例子:定一个约会、共享一张图片、买一份股票。 5、做好积极分享一切的准备。尽可能的分享一切,你所拥有的所有数据,你所提供的所有服务。鼓励不遵循原有意图的使用,提倡贡献,不要那些需要分享的内容坚持设置为私有的。在分享与发现之后,提供易于使用的浏览方式是显而易见的需求。为什么呢:话说回来,你会从别人的共享之中受益匪浅。注意:这里没有许可让你去侵犯版权保护的法律,你不能够去分享你刻录的DVD或者是拥有商业版权音乐,因为你已经同意不会去分享这些东西。但是你可以发现并分享那些完全开放的媒体内容。一个小小的建议,你可以学习一下Creative Commons license(共创协议). 6、Web是一个平台;要让它成长。当然,我们还有很多其他的平台(Windows、Linux、Mac),但是那些已经不是重点了。换句话说,Web是无法脱离的平台,不会中断的平台,你可以通过各种方式去扩展的平台。你在Web上提供的数据与服务将会成为Web一部分,最终你会在Web平台的某一处扮演你的角色。扮演好你的角色并照顾好后来者。 7、理解与信奉“阶梯性”。现在的Web越来越大,几乎蔓延到了全世界的所有国家,并且已经拥有了10亿用户。我的观点是Web的各个组成部分存在着细微的区别和不同,就像不同地方的用户那样。例如Web的设计部分:易用性永远优先于速度、可靠性、重用性与可集成性。你也应该提供同样的体验给你的用户。它已经被一次又一次的被人们在文档中强调,忠诚的用户很快会成为专业的用户,他们期待更快的速度还有更多。退一步支持他们。同样,也有很多很多的用户会进入这个阶梯的底端,如你所期待的那样。他们可能不会说你的语言,不熟悉你的文化,甚至不知道是如何到这里的。所以你需要向他们表达清楚。 8、任何东西都是可编辑的。或者是它应该被编织的更好。要确定的是,只有很少的东西是不能被编辑的,剩下的都可以,这是一个可写的Web。这并不意味着原始内容的丢失,而通常被理解为用户能够很容易的对内容加以评论,或者评注内容是在那里发现的。如果你对此应用的好,他们能够比你所想象的做的更多(把内容串起来并且给予原始内容来创建自己的,等等)。 9、Web上的身份是神圣的。不幸的是,这并不意味着你能够得到更多的隐私(这完全是上个世纪的想法)。但对身份的验证是必要的,你应该感谢那些只需一个邮件地址就能确定你身份的服务。这意味只要你对你的用户承诺了,你就必须保证他们的隐私安全。必要的时候,在这个世界的某处你还得为你的用户挺身而出,向当地的权威挑战。如果你没有打算那样做,你就得把实际情况告诉你的用户。另一方面,如果身份是必须的,不要试图伪装它,不然在某一天我们将会在Web上放弃我们的最后一点点隐私的权利。 10、了解流行的标准并且使用他们。从一个消费者或者是创作者的立场来看,数据将会以不同的格式与任何一个人交换。同时这样的数据也会反过来促进标准的完善与采纳。这通常意味像RSS、 OPML、XHTML、Simple XML、JSON等简单标准的流行,而避免SOAP、XSD,还有RDF、ATOM也一样,使用它们会给我的内心带来痛苦。请你也为你所钟爱的标准投上一票来支持它们。 11、遵循无意使用的规律。如果你把非常有趣的数据和服务用广泛使用的格式开放和共享出去,你将会得到你所应得的,其他人也将会基于你的那一块Web平台来构建。或许还会从别人那里得到更多,所以为这个做一下准备比较好。我已记不清有多少次我看到一个播客(podcasting)服务因为流行过渡而导致服务垮掉,就是因为他们被 Slashdot和del.icio.us给收录了。这一点要知道:网络上的大量化意味着如果一个内容非常有趣,即使是一个很小的角落也会得到惊人的访问量。鼓励使用这种方式,它还是非常有价值的,前提是你要有所准备。 12、粒化你的数据与服务。我们应该在很早以前就明白这些,大规模集成的数据仅仅适用于无需管理的下载与批量操作。分解你的数据,让他们独立成可描述的URL地址,对你的服务也一样。反过来说,你不要创建一些巨大的、复杂的、像圣诞树那样的数据结构和服务。保持简单,要非常的简单。让这些分离的片断能够容易的被重组和发现。 13、提供用户能够单独受益的数据和服务。渐渐依赖于这种社会化参与是存在风险的,你需要让你的用户有一点点动机来贡献时间、热情和信息,除非他们能够直接受益。社会化分享比个体行为的利益大很多,除非你能够激发用户的个人动机,否这你将无法享受这份厚礼。 14、让用户组织并过滤信息。不一定是必须的,但却是非常重要的。让用户以他们自己的方式来标注和组织数据,因为你自己是永远无法及时的处理他们的。用户会按照他们自己理解的最佳方式来处理并构建。要保证你的Web服务能够按照用户所需所想的方式来工作。这也是标签(tagging)和通俗分类(folksonomies )的方式如此成功的主要因素。 15、提供丰富的用户体验。Web一直都在和本地的应用程序进行着激烈的竞争。为什么?因为本地程序还是感觉上好一些,速度也快一些。但是这不会长久的(确信在5年或者15年后,这种竞争就不存在了)。是的,我在谈论Rich Internet Applications, Ajax, 还有那些不可思议的交互应用。他们让Web成为了一个真正的“无平台”的平台,如果你知道我是怎么想的。 16、信奉并支持快速改进和反馈。这个通常意味着加快步伐,但也意味着使用轻量级的工具、技术和不要做出那些适得其反的痛苦决定(例如使用一个被层层环绕的Ajax框架来代替可以通过混合来实现的,或者用C++来构建所有的东西,其实使用Ruby会更好一些)。这同时也意味着需要一个非常快速的方式来处理错误报告,修复Bug,释放新版本。从一个用户的角度来看,报告你所发现的任何问题,还有那些你经常抱怨的地方,甚至那些都不是一个Bug。 当然,Web 2.0是一个极其广泛和深奥的话题,没有一个人能够列举出它的所有重点和特征。如果你对此充满了兴趣,请花一点时间来补充我没有提到的地方。我想这就是Web 2.0的参与性吧! 原作者的这个标题借鉴了Bruce Eckel的两本畅销书的名字:《Thinking in C++》和《Thinking in Java》,《C++编程思想》与《Java编程思想》,在此说明一下为什么要这样翻译这个题目:) indigo 翻译整理

^==Back Home: www.chedong.com

<== 2006-03-04

==> 2006-03-06