我很欣赏Kreny的态度:“请注明本文出处!” : Kreny's Blog。
因为在网上找资料的时候,我也经常会想方设法看到转贴的资料:转贴的资料一般都不如原文质量好:因为有心的原文作者经常还会保持文档的更新和相关资料的补充。中文网络环境中转载缺乏对出处的引用声明的确是是一个很大的问题。
而目前搜索引擎基于的超链分析机制从某些方面来说正在逐步损害网络的原创动力,比如:大网站由于自身PR很高和便于搜索引擎的收录:转贴小网站文章的文章后,往往不用链接形式标明文章出处的转贴者反而能获得比原作者更高的搜索结果排位,这在几次的搜索引擎排名竞赛中都得到了证明:其结果就是内容过度向个别门户网站集中,显然这不符合互联网非中心化的本质,正如Google Watch(针对Google的垄断,算法和隐私政策)的观察所指出的:其结果就只能是由于少数“门户”垄断造成的脆弱生态。而搜索引擎的超链分析也导致了无意义的反相链接竞赛,如果靠堆砌关键词和盗用他人成果,谁还来创新呢?
唯一可以确认的就是我们必须不依赖于某一个网站/引擎,那么让我们开始关注:
Nutch计划:基于Java的搜索引擎
简介
Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎.
尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.
Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.
Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:
每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作
search.minty.org: Open, Distributed Web Search
如何查到一篇文章的原始出处?除了超链:我们还能有其他的方式吗?
版权声明:可以转载,转载时请务必以超链接形式标明文章 搜索门户正在逐步损害网络的原创动力 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/000653.html
Comments
个人觉得这是正常的,门户的概念是什么?
不就是让人们最简单最直接的获取信息吗?难道让每个人每天浏览无数的BLOG获取信息?
基于上面的分析,SE对门户进行优化是合理的,为什么不?
这个Nutch感觉只是一个概念,有点个人搜索的感觉,不过不是每个人都对定制规则有兴趣和能力。至于说用JAVA开发基于几十亿网页的应用。。。只能说:OMG
由: Mark 发表于 2005年01月12日 下午03时59分
提供按时间对搜索结果排序的选项应该还是有点作用的吧?虽然到门户搜集信息的频率比到一个小站点高得多,但是总比直接按照PR来排位的好
由: calon 发表于 2005年01月25日 上午10时18分
关于搜索结果向门户集中,也许可以换个角度理解:这使搜索结果看起来更加安全。
从引擎的利益出发,它未必要关注谁是原创,也许它更要关心spam。门户起码不是spam。
由: 何田 发表于 2006年09月05日 傍晚08时30分