昨天的〔搜索引擎沙龙〕一共来了12位朋友,其中有一多半是做搜索引擎和相关研究的。
讨论的主要话题集中在以下几个:
1.垂直搜索的意义
2.垂直搜索的赢利模式是否强壮
3.垂直搜索的万能模版是否存在,如何实现
4.信息的分类
垂直搜索的核心技术实际上就是智能spider的技术,也就是说如何将定向或者非定向的网页抓取下来进行分析后得到格式化数据的技术。
垂直搜索一般情况下爬虫分3种模式:
1.broad search的基础上对信息进行分类挑选组织。
2.定向爬虫获取信息,配上手工或者自动的模版,将信息进行格式化分析入库。
3.目标网站提供特殊的数据源的接口,利用这些数据进行再加工。
现在绝大多数的垂直搜索都是基于2来实施的,从技术上讲有难度但是能够比第一种方案提供更加精确的信息,例如包括价格,时间,描述,规格等。
这次真正意义上的搜索引擎沙龙参加的人如下:
猎头合连横的老板John Zhang,博客网的冯磊,张博文,卢亮,猎兔分词的罗刚,百搜网的吴萌野,邓子陵,易观国际的饶展,G宝盘的陈新,微软亚洲研究院的陈凯江,和一个做垂直搜索的蔡文凯。
Now there's a new version of the TV series being shot, and this is, of course, not welcomed by everyone. Not only do we face the prospect of seeing today's hot young actors fail to measure up to legends like Chow Yun-fat and Angie Chiu, but the original Cantonese theme song is being replaced by a Mandarin version.
True, there was one series remake back in the 90s that apparently no one ever watched, and the less said about the Andy Lau movie version the better. But we can take hope from the relative success of the recent Vicki Zhao remake of the classic "Moment in Peking" (which also starred Angie Chiu). Not only did it not bring about the end of the world, but it was actually watchable, and in some respects superior to the original version. So there's hope for a new Shanghai Beach.
At the very least, the availability of a Mandarin version of the theme song will provide drunken Beijing businessmen with an alternative to butchering the Cantonese lyrics.
an impressive reality video of 1609 different webcams positioned around the world. specially developed software called 'picksucker' saved an image of each camera every ten minutes (from 29-01-2004 until 30-01-2004 18:40 GTM), which are placed on a geographical world map & become animated according to time. created by pleix, a community of digital artists (graphic designers, 3d artists, musicians...).
although based on completely different input data, the end result is looks similar to google search activity map. [pleix.net (mov)|thnkx Yannick!]
最近看到有人在用 WebLucene
非常惭愧,gRaSS.org.cn自己的FEED都因为XML字符问题已经有1个月没有更新了……原因还是PHP导出XML的时候,数据源中有非法XML字符的问题:
4018700 [main] ERROR com.chedong.weblucene.index.SAXIndexer - Failed with I/O error: Invalid byte 1 of 1-byte UTF-8 sequence. at record:570100
4018935 [main] ERROR IndexRunner - Faint! Indexing failed
尚未找到合适的解决方案……
找到了一篇文章专门说明PHP函数中和UTF-8处理相关的:将escapeForXML函数中都加入了对UTF-8的修正参数
http://www.phpwact.org/php/i18n/utf-8
同时:phpWACT.org也是一个很好的PHP MVC实现框架值得参考。
本照片拍攝於惡魔火鍋黨聚會現場,拍攝者的功力真不錯:)
最近,看到好友查爾斯(Charlesc)把他用了許久的Blog標題「EVALS TEN」,改成了「Nothing But Net」。內心陡然一震,這記空心球實在太妙了!適才轉台看到老友工頭堅把他的「工頭堅部落」Banner換了樣式,改弦易轍為發思古之幽情的Netscape圖示……是啊,網海浮沈倏間,十年(1995~2005)就這樣過去了!感嘆之餘,又讓我想起查老大的這句「Nothing But Net」,照啊!讓我們繼續往網路世代的下個十年邁進吧!
这篇blog的标题是分成三段的,小容想快速地记录下最近值得书面记录的东西:)简单来说,是2条小容关注的消息,1个值得参与的网络互动。
值得关注的2条消息是:
1、本周,金山词霸正式发布了它的搜索门户网站:www.iciba.com 爱词霸网站。(互联网类别)
2、上周,Intel和柯达公司相继发布新的企业标志。(企业形象CI类别)
值得参与的1个网络互动是:
Windy JJ点名了,看原文《有钱了有钱了,17万》。关于农村教育机构如何善用援助资金和财政拨款的话题。当然不必严肃地发言,表达个人自己的想法就可以了:)
如果你感兴趣的话,接下去你可以看更详细的内容,有些超链接可以弥补小容自己写作的不足。
我正在關注:
長尾理論:打開「藍海之門」的另一把鑰匙 ◎周浩正 「長尾理論」反映於分佈圖上的百分之八十,就像一條長長的尾巴──越細小、越接近尾端、越被忽視的非主流產品區,才是未來產生可與主流市場相匹敵的、甚至是市場規模更大的、新的「暢銷產品源」*註3;而80%(五分之四)的「無用多數」,很可能就是未來「關鍵少數」的隱身之處。 (tags: 出版 老貓 長尾 周浩正)
地図日記 就是有趣的地圖日記,一定要玩玩看! (tags: map 日記 地圖)
积累……--网志年会回顾 两天的会议结束了,但脑子里总在想着一些事情,会议上的BLOGGER都是高手,都是专家,自己是一个什么技术都不懂的BLOGGER,但在会议让我听到了声音,看到了激情、领悟到了思想,也和大家一同分享一下我看到的、听到的和领悟到的。 (tags: 博客 部落格 上海 中文網誌年會)
想看更多網摘?
虽然经历过使用Wakka被色情网站盗链当作图片服务的攻击,但一直没有放弃寻找一个Wiki平台的努力。知道最近休假期间,分别尝试了2个Wiki平台的搭建过程,算是对Wiki系统的发展有了一个初步的了解。尤其是初步试用了TWiki的DakarRelease的发布(稳定Beta版)和MediaWiki的1.5的发布。感觉Wiki发布系统在2005年成熟了很多。
和很多开源产品一样,开始的多种系统会向少数优秀平台集中:好比Blog发布工具,最后都集中到MovableType(Perl)和WordPress(PHP)这2个平台上,Wiki的发布系统也在向少数平台集中。我了解了Perl/PHP/Python/Java这几种开发语言的主流Wiki平台:
Perl: TWiki 非常著名的企业Wiki写作,在很多大公司有广泛的应用,非常完善的权限管理
PHP: MediaWiki(就是WikiPedia维基百科等项目的后台发布系统),非常适合大规模/丰富主题的Wiki平台搭建;
Java: Confluence虽然商业版本的收费(开源),但是对于非盈利组织是免费的,Apache基金会的很多项目都是用Confluence+JIRA(变更管理工具)协作开发;
Python: TRACTrac和SVN的集成是Python内部协同开发环境的绝妙搭配;
搜索引擎 | 搜索力指数 | 排名升降 | 份额 |
1. Baidu | 106888514 |
![]() |
60.56% |
2. Google | 21407126 |
![]() |
12.13% |
3. 3721 | 18551210 |
![]() |
10.51% |
4. Yahoo | 16158398 |
![]() |
9.15% |
5. 163 | 4859410 |
![]() |
2.75% |
6. Sogou | 3349926 |
![]() |
1.90% |
7. QQ | 1990522 |
![]() |
1.13% |
8. iAsk | 1051342 |
![]() |
0.60% |
9. China | 781090 |
![]() |
0.44% |
10. Zhongsou | 622326 |
![]() |
0.35% |
11. Yisou | 454986 |
![]() |
0.26% |
12. Tom | 390558 |
![]() |
0.22% |
13. Sohu | 8818 |
![]() |
0.00% |
14. Sina | 134 |
![]() |
0.00% |
two independent (but still visually similar) & impressive flickr tag browsers that allow users to explore the huge flickr image collection by using tags as keywords to classify images. each tag shows a list of ‘related’ tags & image thumbnail examples, based on clustered usage analysis. see also flickr sketch search engine & flickr color picker & tagged colors.
[quasimondo.com & airtightinteractive.com|via dataisnature.com]
是的,我愛「聖稜的星光」,好愛好愛!我佩服蒔媛姊和張作驥電影工作室,也欣賞協力拍攝此劇的所有演、職員;無奈能力有限,只能以這張貼紙表達萬千感動於此方寸間。是啊,有太多的感嘆縈繞心懷,只好默默含淚努力推薦。喜歡看本土優質戲劇的朋友們,請別錯過「聖稜的星光」!