22:21 揭秘“重复内容处罚” » 谷歌中文网站管理员博客
发表者: Susan Moskwa, 网站管理员趋势研究员

原文: Demystifying the "duplicate content penalty"
发表于: 2008年9月12日星期五,上午8: 30

重复内容始终是一个经常被谈论的话题。我们不断地发表关于这方面的文章,人们也在不断地提出问题。特别是,我还听到有很多网站管理员担心自己受到了“重复内容处罚”。

在这里请允许我们把这个问题一次性跟大家讲清楚:根本不存在所谓的“重复内容处罚”。至少,也不是大多数人谈论时所认为的那样。

有一些处罚是和抄袭其他网站的内容有关的,比如完全抄袭并且发布其他网站的内容,或者在完全没有提供任何其他附加价值的情况下发布这些抄袭的内容。这些都是我们不提倡的做法,您可以在网站管理员指南里找到有关此问题的清晰的论述:

(请注意,我们不希望您从其他网站那里抄袭内容,但是如果其他人抄袭了您的网站就是另外一回事了;如果您担心别人抄袭了您的网站,请您参考这篇文章)。

但是我听到的一些担心重复性内容的网站管理员所谈论的并不是抄袭或者域名农场(domain farms);他们讨论的是诸如在同一个域上有多个网址指向相同的内容。比如,www.example.com/skates.asp?color=black&brand=riedell
和www.example.com/skates.asp?brand=riedell&color=black。这种类型的重复性内容可能会对您网站在搜索结果中的表现有潜在的影响,但是它不会使您的网站受到惩罚。下面这段文字来自我们关于重复内容的帮助文章:

除非重复内容看起来意在欺骗用户并操纵搜索引擎结果,否则,我们不会对有重复内容的网站采取特别措施。如果您的网站存在重复内容问题,而您又未遵循上述建议,我们会自行以恰当的方式选择在搜索结果中显示的内容版本。

这种非恶意的重复是比较常见的,特别是很多内容管理系统(CMS)缺省条件下对此处理的并不是很好。因此,当人们谈到此种类型的重复性内容会影响您的网站时,并不是因为您可能会因此受到处罚,而仅仅是由于网站和搜索引擎的工作方式所造成的。

大多数搜索引擎都力求保持一定程度的多样性:他们想在搜索结果页上向您展示十个不同的搜索结果,而不是含有相同内容的十个不同的网址。为此,谷歌试着去掉重复的内容从而使用户较少看到这些多余的重复性的内容。您可以在这篇博客里了解更多的细节,其中谈到

  1. 当我们探测重复内容时,比如由网址参数造成的衍生网址,我们会将这些相似的网址放在同一组里。
  2. 我们会选择我们认为最能代表这一组的网址在搜索结果里进行展示。
  3. 我们还会对这一组网址的特性进行相应的整理,像链接的受欢迎程度,并将其合并到此代表性网址上。

作为网站管理员,上述过程可能会影响到您的是:

在大多数情况下,谷歌可以很好的处理此类重复性内容。然而,对于那些不同域名上的重复性内容,您或许需要再考虑一下。尤其是,当您决定建立一个网站而它的目的从本质上来讲就是内容抄袭和重复的话,如果您的商业模式又依赖于搜索引擎的流量,那么除非您可以给用户带来很多的附加价值,不然对于建立此类网站您还是要三思而后行。举个例子,我们有时听到来自Amazon.com的联盟网站说他们网站上那些完全由Amazon提供的内容很难有好的排名。这难道是因为谷歌想阻止他们卖《Everyone Poops》这本书吗?不;这是因为如果他们的网站提供完全一样的内容的话,他们怎么可能会比Amazon的排名更好呢?对于在线购物来讲,Amazon在很多方面具有权威性(对于一个典型的Amazon联盟网站来说更是如此),一般的谷歌搜索用户可能想看到的是Amazon上的原始信息,除非这个联盟网站提供了相当数量的、额外的附加值给用户。

最后,想一下重复内容给您网站带宽带来的影响吧。重复内容会造成抓取效率低下:当Googlebot在您的网站上发现了十个网址,在它知道这些网址含有完全相同的内容之前(如上所述,也就是在我们能够对他们进行归类之前),它必须对这十个网址逐一进行抓取。Googlebot耗费在抓取重复性内容上的时间和资源越多,它用来抓取其他内容的时间也就相对变少了。

总而言之,网站上的重复性内容会以多种方式影响您的网站。但是除非您是恶意抄袭造成内容重复,否则这些方式不会构成对您网站的处罚。这也意味着:

20:41 BugFree和SVN的整合 » 自由软件 BugFree 官方网站

Subversion是目前主流的版本管理工具之一,在很多项目的开发中我们都可以看到它的身影。
每次fix bug并提交代码到SVN,必然会有一些文件更新(或增加、或删除),那么如何将这些文件的更新信息同BugFree中被fix的Bug有机的结合起来呢?下面的内容能够帮助你实现这一目的。

一、准备工作

BugFreeforSVN.tar.gz中的文件说明:

二、修改配置

修改svn_ci.php:

修改post-commit:

windows平台下post-commit.bat的修改可参考post-commit

三、如何使用

每次提交代码时,在注释里填写含有” fix bug #123” 等类似格式的信息,就会把相应的文件更新信息提交到BugFree中。

例:

  1. 修改文件branch/BugFree2.0_demo/Bug.php
  2. 提交修改,假设此次fix的Bug号为123: svn ci -m ‘ fix bug #123 ‘
  3. 查看BugFree中Bug号为123的Bug,则会发现其多了一行类似以下格式的注释:

2008-08-08 08:08:08 Edited by admin

Changeset [559] by leeyupeng, 2008-08-08 08:08:08 +0800 (Fri, 8 Aug 2008)

U   branch/BugFree2.0_demo/Bug.php  [diff]

注释说明:

四、其他说明

关于提交信息的格式:

一次提交可能修改了多个bug,那么我们在svn提交填写提交信息时,多个Bug号可以用空格、英文逗号隔开。
如下格式都是可以的:

fixbug #123 #456
lee fix bug #123,#456
fix  bug    #123,  #456
fix bug #123, #456. God!

每个Bug号开头用#标识,并保证文字fix bug 和第一个Bug号之间不少于一个空格。

当然,这可能并不符合你所在团队的习惯,你可以通过修改svn_ci.php中35行附近的正则表达式:/fixs*bug…/i来定制自己的message格式 :-)。

关于diff链接 :

你可能没有安装ViewVC,或者有其他Web方式浏览版本库的工具,那么可以通过修改 svn_ci.php中60行附近的$note .= ‘ [url=’ . VIEWVC . $fileName . ‘?r1=’. $pre . ‘&sortdir=down&r2=’ . $rev . ‘&sortby=log][diff][/url]’;来定制链接参数。

参考文章

09:48 晒一下收到的生日祝福:) » Inside AdSense-中文


自从发布了生日帖以后,我们就陆续收到了来自四面八方的生日祝福,发布商对我们的认可和鼓励让我们十分感动,我们会继续努力,A-Jia A-Jia Fighting!

下面是给我们送来祝福的朋友们的分布地图,真的很感谢来自祖国各地的祝福 (*^__^*)


View Larger Map

我们已经给朋友们寄出了第一批纪念贴,希望你们喜欢!
下面来晒几条祝福语

*祝福Adsense在中国可以做的更好,希望Adsense搭起中国网民和Google的桥梁,让更多的网民加入到Adsense,实现双赢。*

*AdSense 中文博客已经一岁了,在过去的一年里,我几乎每天都去看看,看看有没有什么新的消息。
在这个特殊的日子里,我真心的祝福AdSense中文博客生日快乐,也真心的祝福AdSense中文博客的管理员们生日快乐,同时希望AdSense中文博客能够越来越好,能够为大家提供更好的服务。*

*AdSense中文博客一周岁了,她陪伴着我也走过一年了,算是相恋纪念日吧!在她的陪伴下,我才能发展得越来越好!
感谢AdSense中文博客给我们提供了这么多的指导,和经验分享。忠心的希望她能越来越好!*
09:16 Google专利:SNS版"UserRank" » laolu's blog: Blog

2006年,Google向MySpace支付9亿美元达成三年的广告合作,结果没有获得好收成,但社会化网络发展如此之快,应该不会让Google这样的巨头停止在SNS上的尝试(还有已关闭mesh的Yahoo!已关闭wallop的Microsoft,也不会就此止步于SNS)。

3个月前(2008年7月3日)USPTO(美国专利商标局)发布了Google的一个美国专利(专利号20080162260,或见这里),题目是"网络节点的广告定向(NETWORK NODE AD TARGETING)",就像在搜索中利用网页的内容、链接等因素进行重要性的PageRank评级一样,这个专利方法是利用社会化网络成员的帖子、好友等因素进行影响力(Influence)的评估,也许可以称之为UserRank或InfluenceRank。

Google这份专利的权项主要有:
1. 一种用来向网络成员显示广告的计算机应用方法,该方法包括:在一个网络内识别一个或更多社团(community),其中的社团由该网络的多个成员组成;在一个或更多社团内识别一个或更多影响者(influencer);以及在一个或更多社团的一个或更多成员的个人页面(profile)上放置一个或更多广告。
2. 权项1的方法,进一步包含接受与属于该网络的多个成员相适配的信息,这些信息包括多个成员的个人页面内容,以及多个成员之间的链接。
3. 权项2的方法,其中的识别一个或更多社团,包含基于该网络成员之间已存在链接为基础的成员分组(grouping)。
4. 权项3的方法,其中的链接连接着第一个成员与该网络的一个或更多成员。
5. 权项3的方法,其中的每个链接都有一个权重。
6. 权项2的方法,进一步包含以多个成员个人页面的内容为基础,识别社团的多个成员的一个或更多的共同兴趣。
7. 权项2的方法,进一步包含以每个社团成员之间的链接为基础,对属于一个或多个社团中的每个社团的多个成员进行排序(ranking)。
8. 权项7的方法,其中的影响者是排序最高的成员。
9. 权项2的方法,其中的网络包括在线的社会化网络。
10. 权项9的方法,其中的个人页面包含一个或更多网页,储存于该在线社会化网络主机的服务器上。
11. 权项1的方法,其中的一个网络成员,属于一个或更多的社团。
12. 权项1的方法,其中的一个或更多广告,单独地放置于一个或更多影响者的个人页面上。
13. 一个向网络的成员显示广告的广告服务器,该广告服务器包括:一种社团标识符,用来标识一个或更多的社团,以及在一个或更多社团里标识一个或更多影响者;以及一个广告库,用来存贮被显示在所识别社区中的一个或更多成员的个人页面上的广告。
14. 权项13中的广告服务器,进一步包含一个联网库,用来存贮与属于该网络的多个成员相适配的信息,其中的信息包含多个成员的个人页面的内容,以及多个成员之间的链接。
(以下略)

商业周刊以"让社会化网络有利可图(Making Social Networks Profitable)"为题,对这个Google专利做了报道和分析,并指出这为广告主取得梦寐以求的在线社区提供了新途径——Forrester Research的分析师Jeremiah Owyang说:“[Google]的搜索按最高影响列出网页,他们也就完全有理由把这种做法扩大到在线社区和人群”。有了成员的影响力排序及其共同兴趣,广告主就可以通过Google的广告服务收放自如地进行广告定向。

另一篇报道题为"Google打算对社会化网络的用户进行排序(Google plan to rank social networking users)":社会化网络的用户会被按照他们的影响力来排序——有多少人访问他们的个人页面、他们有多少朋友、他们活跃度怎样、他们属于哪个兴趣组等。社区里最受欢迎的用户被Google称为“影响者”,广告就显示在这些人的个人页面上。“显示在个人页面上的广告数量,取决于成员在社区中的排序”。
(该报道还说,今年以来USPTO已经发布了69个Google的专利,思路很广,从显示邻近商店商品的智能广告板,到漂浮在海面上海浪发电的数据中心。)


图片来源: Google plan to rank social networking users

Facebook灯塔广告计划的终止,不会是精准营销商业追逐的终止,Google的新途径就是方法之一。如何平衡用户隐私、仍需要谨慎对待。不过,假如没有规模运作的行为定向广告,SNS很有可能成为email的再版(人人有用,人人在用,但回报较低)。


^==Back Home: www.chedong.com

^==Back Digest Home: www.chedong.com/digest/

<== 2008-10-06
  十月 2008  
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
==> 2008-10-08