手边有一份 2005 Winter TopTen Award Winners的报告,包含了一些关于世界上排名前几位的 VLDB 的信息。VLDB,超大数据库,其实叫做"狂大数据库"倒是也很贴切。
如果不区分操作系统环境,Yahoo! 力拔数据仓库一项的头筹,单个数据库数据大小接近 100T 。采用的是 Oracle 数据库,部署在 Unix 上, 存储是 EMC 的设备。这是 2005年的数据,雅虎现在每日接近 40 亿 PV,这个数据仓库现在应该远超 100T 了吧。 电信巨头 AT&T 的数据仓库屈居亚军。Amazon 的两个数据仓库也不小,数据量多达 24773 GB,是用 Oracle RAC 实现的,部署在 Linux 操作系统上。
到现在为止,都还没有看到互联网站点的身影。
仍然全部是 Oracle 数据库。而且, 四个中的三个都是通过 RAC 来实现的。
从上面的数据可以作如下总结:
1) Linux 上 Oracle 通过 RAC 可以提高扩展能力;
2) 但是,Oracle RAC 的扩展性并非那么好;
如果从峰值处理能力(Peak Workload)的角度上看,Oracle 就不那么风光了。DB2 与 CA 的 CA-Datacom 瓜分了 10个 席位。操作系统平台都是 z/OS。 排在第一的是 UPS 的数据库系统,每个小时处理 1,134,034,718 条 SQL 语句。很强悍。
或许有个的朋友看过我介绍的 eBay 的数据量,可能比较纳闷,为何整个报告中没有 eBay 数据库上榜? Fenng 猜测是 eBay SOA 化之后,单个的数据库就并不大了,这样也避免了风险。
(这份报告的 PDF 下载)
作者:李俊强 工程师
我的名字叫拼写纠错,顾名思义,就是那种专门帮助大家做拼写检查和进行建议的家伙。之所以有今天的我是因为大家在拼写输入的时候还不够仔细,偶尔犯点错。而我,你们忠实的仆人,一个杀人不眨眼的刽子手,随时愿意“伸张正义,替天行道”,为你们消灭那些错误。
如今我习惯了做刽子手的角色,并享受着其中的快感。哎!这样的事惯常后,罪恶的感觉自然就减少了,人到了这样的境地,也没什么好担惊受怕的了。老实讲,第一次干这样的勾当还蛮紧张的,那时候我也不相信自己会杀掉那个人,但我做了,做了一次,后来又有了第二次,如今我每天都重复着这样事情——我不能任由这些鲁莽的家伙胡作非为,以不实的“名义”危害着善良的人们。请宽恕我吧,我的朋友们!
还记得,第一次杀人是一个月前的事情。那家伙的名字我还记忆犹新——“末来战士”,看到这个名字是不是有点诧异呢?当他递给我名片的时候我似乎快要被这个假想所迷惘了。我努力保持自己的理智。终于,想起来了。好一个欺世盗名的家伙,还洋洋自得以为我什么都不知:受到我邀请的那个叫“未来战士”的兄弟本应该出现在我面前,替我办理一些事情,如今却来了这么一个蠢货,还一本正经的佯装自己。我的“未来战士”呢?难道已经被这个厚颜无耻的家伙谋害了?他知道我的企图么?会不会是来威胁我的,趁机向我敲诈一笔?如果我不满足他的强求,会不会向世人揭发我?我踌躇着,不知所措。突然一丝邪恶的念头出现在脑中:干掉他,干掉他,一了百了,这样就永远没人知道自己的这番行径了。看着在我身旁装腔作势,故弄玄虚, “貌似”“未来战士”的人——这个让我从此改变自己的人,在这一刻我失去了理智,失去了沉稳。呵呵,人真的很奇怪,偶尔会想象做出这样出乎意料的举止,而这些“小小”的行为往往又会在某一刻时间里影响我们,至少,像我这样一个过去一直都很清白的人,干掉了这个令自己深恶痛觉的家伙,着实让我产生了改变。
我亲爱的朋友,听了我的故事是不是让你怯懦,让你担心会遇到我,想要离开我。不,请不要,请不要离开我,我亲爱的好朋友,我不是魔鬼,我的本意是铲除世上哪些蒙蔽我们的江湖骗子——他们的举止是何其令人发指,伤害着一个又一个的善良的你们。说了这么些也不是期望让你们给我怜悯,只想让你们知道这个世上,还有如此多的恶物在身旁,所以,我的朋友,听我一句:见识定要小心谨慎。如果你们需要我,我乐意为你效劳——记住啦,我的名字叫拼写纠错。
故事情节纯属杜撰,行文上下,字里行间,是模仿《我的名字叫红》。和小说相比,这仅仅是一个模仿的“玩意”而已,全然没有了小说那样的氛围与气质。只是一个在形式上的模仿,更没有讲故事的快意,就是一个为了说事而讲事的“文字块”。希望你们见谅。
文中说的刽子手,我们的身边确实存在,就是我们的搜索拼写纠错,为了帮助用户更快的查到要找的东西而提供的一种辅助工具。提供这样的工具就是想在可能的输入错误前提下,给用户一个提示或者一个建议。
相似音
用户输入“孙燕子演唱会”,有可能这并非真正想去查找的内容,因此呢,我们会提示一个可能更好的推荐“孙燕姿演唱会”。让我们回过头来看看上面的那个例子吧:
呵呵,还不赖吧!这个就是我们用来帮助大家因相似音失误而进行的辅助提示。像名字、歌曲这样不太容易记住他们的确切写法的,拼写纠错的出现可以帮助大家更容易地找到想要的东西。
汉字顺序颠倒
没错,这么粗心大意委实让人吃惊!不过,我们会挺身而出,帮你改正错误。
相似字体
呵呵,故事里面的“末”和“未”,你能立刻区分他们么?对于使用非拼音输入法的用户,可能会有这种情况的拼写错误,因为他们都“貌似”。不要紧,我们的工作就是帮你仔细甄选出正确的那个来!也帮助你更好的使用我们的搜索。
拼音输入
或许我们都熟悉使用拼音输入法了,但有没有使用拼音来搜索你想要的东西呢?来看看这个吧:
是不是比起输入中文而言更加便捷呢?就我个人而言,对于短的词语比方“dianyingxiazai (电影下载) ”确实能够省去选择词语的麻烦,但是对于那些很长的拼音,输入错误的概率就会增加,所以呢,或许不能如前者那样每每如愿。如果你是一个拼音高手,也可以用它来搜一些想要的东东,这没问题。我们一定会满足你的!
还记得小学时候大家学习拼音么:前鼻音,后鼻音,平舌音,卷舌音,一大堆的术语,这些也是我们时常出错的地方(在这些问题上徘徊,的确有些费神)。来!看看我们对这个问题的处理:
看到了吧,我们也引入了纠错的功能,针对大家发音容易造成的错误进行的必要的纠正。这样会不会让你感觉些许人性化呢!
我们的简短行程就要结束了。让我们回到首页去慢慢体会一下个中奥妙吧!大伙儿在使用的时候有了什么意见或者建议也请不要吝啬哦!
故事还未结束,凶手仍在继续。。。。。。
做一个知荣知耻的spider很难吗?按照是否匿名和是否遵循robots.txt协议有4种蜘蛛:
1 真名真姓,遵循robots.txt 协议。代表:GoogleBot BaiduSpider MSNBot Yahoo!Slurp 等
2 真名真姓,不遵循robots.txt协议。代表:iAskSpider SohuAgent wget
3 匿名,不遵循robots.txt协议。代表:大量的匿名蜘蛛,例如 OutfoxBot;
4 伪装:不遵循robots.txt协议。代表:中搜,各种SpamBot,
如何识别这四类蜘蛛呢?通过HTTP协议和是否支持mod_gzip都很好的特征,详细分析附后:
原文作者:转自Webmaster World
翻译:Refly
原文链接:Build a successful site in 12 months
原文发表时间:2006年11月
(感谢Refly朋友的来稿!翻译的原文也是转载,由于没有Webmaster World的帐户,就没有去考证原作者是谁了。 -雷声大)
在這裡看到的,作者列出27個步驟,照著這些步驟作就可以讓網站進行成功的搜尋引擎最佳化,作者也宣稱,這些方法對於Google是100%成立的。
那我就直接翻成中文然後重寫好了:
1. 準備內容
在註冊網址之前就應該先蒐集至少「一百頁」的內容,這些內容必須是有價值的、不違反著作權的內容。
2. 網址
想個比較有意義,好記的網址(喔,好吧,中文網站比較不需要在網址裡放關鍵字,這一項我們可以忽略)。
3. 網站設計
對搜尋引擎來說,他們看不到網站裡的flash、java applet和javascript,也看不到你圖檔裡寫的字,所以在網站設計上,只要盡量簡潔有利,讓內容可以好好的呈現,就是一個成功的seo網站頁面。
另外呢,網頁要盡量符合w3c的標準,如果懶得作網頁,可以參考這裡,有提供一些免費的網頁範本,幾乎都是cc授權,所以可以自由的使用,他們的網頁都是符合w3c標準的。
4. 每頁檔案大小
作者建議每個網頁盡量在15k以下,如果可以縮減到12k,甚至10k那就更好,但是不能在5k以下。其實我們都知道,搜尋引擎最佳化的目的,實際上是為了使用者,而不是為了搜尋引擎本身(這個我過幾天再補一篇文章介紹)。
不過這一項到底是不是真的,我也不曉得,曾經有長輩跟我說,在台灣Yahoo,網頁大小越大越好..這有待實驗證明。
5. 內容
每天建立一個500~1000字的網頁,當然這個網頁裡面必須包含你重要的關鍵字,如果想不出關鍵字來的話,可以使用Yahoo的關鍵字建議工具。
6. 關鍵字密度以及關鍵字放置位置
拿出你的關鍵字,在下列六個地方各使用一次:
* 標題
* meta標籤
* 網址裡面(好吧,中文關鍵字做不到)
* 粗體關鍵字 (就是寫出你的關鍵字,然後把他加粗)
* 斜體關鍵字 (就是寫出你的關鍵字,然後把他斜體)
* 頁面上半部 (網頁內容比較前面的地方,我是建議用個標題,像是h1)
另外,英文的話,文句要通暢,拼字要正確,雖然搜尋引擎本身就會幫你校正…
7. 外部連結
每一個內容頁面都應該連結一、二個該關鍵字的「有名大站」(我不是針對無名小站= =),要注意的是連結的方式,要先寫出你的關鍵字,再將這個關鍵字直接連結到該站台。
8. 內部連結
你的網站裡面可能有很多類的內容,請確定同類內容互相連結,而不同類內容千萬不要互相連結。例如講食品的頁面請連結到講水果的頁面這樣。
為什麼要這樣作呢?同類內容的內部連結可以讓google的pagerank在你的網頁裡互相傳遞,如果你只對個別網頁作最佳化,有可能會發生的情況是,網站裡只有少數幾個頁面的排名可以往前,但是若是做好內部連結的話,可以讓每個網頁的排名都往前。
你想要五十個網頁每天都可以帶來一位訪客,還是只有一個網頁,每天帶來五十位訪客呢?前者還有機會可以努力,後者要再增加應該有其限度才對。
9. 網站上線
最好不要用虛擬主機,若是能有自己的代管主機或者是固定ip位置就最好了。若是租用虛擬主機廠商的虛擬主機方案,你可能遇到的就是一台主機裡面放了上萬個網站,儘管Yahoo和Google宣稱,他們對待虛擬主機一視同仁,但是我還是擔心要他們開始把同一主機ip數量加入排名公式的那天…
確認網站的每一頁都可以被搜尋引擎索引進去,網站裡的連結要做好。另外呢,在網站還稱不上是個「好網站」的時候,不要讓網站上線,若是隨便讓你的爛網站進入搜尋引擎,並且被打了低分之後,我想,要讓分數上升似乎就不是那麼容易了。
接著,把自己加入到odp(open directory project),這是一個大家可以手動加入的目錄索引,這樣至少你的網站已經在一個索引裡面了,接著,若是有錢的話,可以使用Yahoo的搜尋引擎快速付費登錄,這可以讓你的網站在七天內進入Yahoo!奇摩的索引裡,若是沒錢的話也沒關係,慢慢等還是會被Yahoo登錄進去的。。
10. 送交搜尋引擎以及目錄索引
把你的網站登錄到Google、Yahoo!奇摩以及MSN,接著,就放著不管了。別忘了,這篇文章的目的是建立成功的網站,過程是一年,所以把網站送交登錄之後,請耐心等待六個月。(最慘的情況下啦,不過一般來說,新網站最遲三~五個星期就會進入索引裡面了)
11. 紀錄與追蹤
申請一個不錯的網頁計數器(現在這個時候的話,當然是推薦使用Google Analytics,畢竟繁體中文內容已經可以使用Google AFC了;當然Hotrank也是一個不錯的選擇,2002-2005年我是用Hotrank的。)
12. 等待搜尋引擎過來索引你的網站
當然最好的方法是在網站裡放個小程式,紀錄搜尋引擎有沒有來過(呃,過幾天我會提供XD),不然我們可以使用Google提供的Google Webmaster Central,Google提供各種關於你網站的資料,像是什麼時候Google來過你的網站啊等等,你也可以透過Google Webmaster Central提醒Google,你的網站有更新,請Google過來這樣。
13. 主題網站
每個關鍵字都會有該領域的主題網站,想辦法讓你的網站進入主題網站吧!(這一項我沒辦法補充說明@@)
14. 交換連結
與你關鍵字相關的網站作交換連結,最好是一天增加一個新的交換連結網站這樣。
15. 內容
每天都要生產一個有內容的頁面。長期來說,當然是有主題的文章比較有效,盡量減少個人文章、過短的文章等等,並且請注意你的目標族群,寫些他們會有興趣的東西放在網站上。
文章的寫作重點:內容、租體字、斷行、大量斷行、簡短的句子–還有很多破折號–這樣可以讓你的讀者閱讀的很快。
(註:這讓我想到古龍 囧rz)
16. 格調
請盡量保持你網站的格調,不要大量製造看起來像是垃圾的東西等等….= =a”…就是不要像我的網誌一樣,你就會成功了。
17. 反向連結
如果有人向你要求連結的話,在你新增連結之前,請先去看看他的網站,看看他的Google Pagerank等等資訊,如果對方是個爛網站,那你何苦跟他連結,降低自己的格調呢?
18. 推廣你的網站
寄信給你的朋友、在相關主題論壇裡大量閱讀、大量回應(記得,簽名檔裡放上網站連結)。
19. 強調內容
訪客進入你的網站,目的在你的內容,所以請強調你網站的內容。
20. 每天建立一個有內容的頁面
還是那句話,每天建立一頁新內容,如果想不到可以用哪些關鍵字的話,還是請用Yahoo的關鍵字建議工具。
21. 閱讀紀錄檔
網站開始的一、二個月之後,你會開始發現你之前登錄過的那些網站,開始引導訪客過來了。檢查一下這些訪客都是透過哪些關鍵字進來的,並且觀察這些關鍵字和他們真正看到內容之間的關係。如果他們要找的「真正內容」你網站裡面沒有的話,這個時候就可以適時補充真正的關鍵字。例如:他們要找的是「蘋果」,然後被連結到你網站裡的「橘子」頁,這代表什麼?代表「蘋果」跟你的網站有關(所以訪客進的了你的網站),但是你網站的「橘子」頁卻是你網站裡跟蘋果最有關的頁面,這時候,就該補上一個「蘋果」頁在網站裡面。
更深入的範例:如果他們找的是「蘋果 果醬」,那就代表「果醬」也可以進的了你的網站,這時候就多補充一些果醬頁面吧!
22. 預先準備內容
我們都知道,搜尋引擎需要時間才能把你的網頁放進資料庫當中,所以當你知道PS3和Wii會在年底推出的時候,我們只要在七月、八月份開始製作PS3和Wii的相關內容,這樣等到PS3和Wii正式推出的時候,你就可以收到成效了。
23. “Be Social”
網站被登錄在Digg、Del.icio.us、Technorati、Hemidemi等等地方,對你來說當然也是有幫助的。如果你的網站有內容,就更容易被人發現,被人發現就容易被人寫文章推薦,容易被人寫文推薦,就容易被搜尋引擎加分,這樣一路下來當然有更大的好處。
24. 網友
在論壇裡,除了閱讀文章之外,更要緊的是和網友的互動,互動多了之後,自然而然就會不只在論壇互動,可能就會轉變為在兩人的網誌上互動,久了以後就可能是網站相互連結的基礎了。
25. 作筆記
在你每天一頁內容的過程當中,心裡頭應該會浮現一些靈感,當靈感浮現的時候,就是你的另一篇新文章的源頭了。先寫下來,以後可以隨時拿出來用。
26. 第六個月:檢查搜尋引擎
現在是第六個月了,該是時候去檢查搜尋引擎上面到底有沒有你的網站了,如果之前六個月經營得好的話,現在你的網站應該順利的出現在搜尋引擎上頭了;如果沒有出現的話,可以重新登記一次。
27. 每天建立一頁新的內容
這一項好像出現很多次了..囧 不過這項最重要,總之記得每天要建立一頁新的內容,經過這麼長時間的網站經營之後,我想對你來說,建立內容已經沒有問題了,現在要建立更「優質」的內容,對你來說更是輕而易舉的事情,所以,每天建立一頁新的優質內容吧!
總之就是這樣,完成了這27個步驟之後,你的網站一定會成功的,原作者提到,搜尋引擎每天會引導五百到兩千位訪客到你的網站上,每天的網頁觀看數量應該也會到達一萬頁左右。