14:41 如何验证谷歌抓取机器人(Googlebot) » 谷歌中文网站管理员博客


原文: How to verify Googlebot
发表于: 2006年9月20日,周三, 上午11时45分

最近我听到一些聪明 人士要求搜索引擎提供一种方法来验证一个抓取机器人是正宗的。毕竟,任何垃圾制造者都可以用Googlebot来命名他们的抓取机器人,并声称自己是Google的。那么,你应该信任哪些抓取机器人,又应该阻截哪些?

我们听到最普遍的要求是把Googlebot的IP地址列表公布给大家。这个做法的问题是,如果/当我们的抓取工具的IP地址范围改变时,并非每个人都知 道去检查。事实上,爬行组几年前搬迁过Googlebot的IP地址,他们遇到的一个真正的麻烦是提醒一些把Googlebot的IP范围写在他们的程序 里的网管们。所以爬行组的成员们提供了另一种方法来验证Googlebot。这里是爬行组成员们提供的一个答案(经他们同意在此引述) :

请告诉网站管理员们,最好的方法看来是使用域名解析服务器(DNS)来核实每个案例。我推荐的验证技术是做反向DNS查找,核实该名字是在googlebot.com域名内,然后使用该googlebot.com名做一个相应的正向DNS->IP的查找; 例如:
(译者注:以下是Linux命令及执行结果)

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
(1.66.249.66.in-addr.arpa域名指针crawl-66-249-66-1.googlebot.com)

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)

我认为只做反向DNS查找是不够的,因为一个垃圾制造者可以建立反向的DNS来指向crawl-a-b-c-d.googlebot.com。

这个答案也是我们内部的技术帮助中心提供给我的,所以我认为这是一个验证Googlebot的官方方法。为了从“官方的”Googlebot IP范围内抓取,抓取机器人要尊重robots.txt和我们内部的主机负荷惯例,从而使Google不过分爬行您的网站。

(感谢N.和J.为此文提供的帮助,他们介绍了爬行方面涉及的东西) 。
14:21 各种社交网站的入口dashboard比较 » 车东[Blog^2]

“找到任何事,沟通所有人”,一直是用户上网最基本的2个需求。找到任何事皆本上是由通用搜索引擎解决了,很多新出现的社交网络都在努力成为“沟通所有人”这样的一个中心。和传统的邮件/IM等服务不同,新出现的很多社交网络服务都越来越像一个开放的订阅中心演变,在这里可以看到你关心的朋友最新消息:谁发起了什么活动;谁推荐了有趣的视频,谁写了blog等等;所以先上邮箱收邮件,后到facebook看看最近有什么通知已经成为了很多美国大学生习惯的一部分;而在这个服务中,首页dashboard是最重要的入口,以下是一些此类服务的首页dashboard截图:
facebook的dashboard: 支持的应用很多,如果联系人都相互认识就能找到每天必看的理由;
2008-02-24_012316.png

spaces.live.com的dashboard: 只有Live系列服务的更新
2008-02-24_011732.png

PLAXO:最近推出了pulse服务,包含群组等服务,plaxo最早是作为邮箱联系人管理服务商出现的;
2008-02-24_013246.png

这些社交网络平台的一些特点:
1 都有基于电子邮箱/IM的导入联系人的功能: 可以充分利用原有在邮箱服务和IM中积累的社交联系,而且传播速度更快;
2 大部分都支持基于RSS/API应用的内容导入入口,这样可以方便的将用户在其他平台上积累的内容导入过来;

12:22 网络组织:外在宣传 V.S. 内在实况 » 大学小容>善用网络,助益成长!

上文提到实体组织的“外在宣传”与“内在实况”存在差异,而且他们的“离线品牌形象”和“在线品牌形象”也存在差异。

今天把昨天预告的“从社交网络角度来看企业的显性结构和隐性结构”押后一下,先补充一下昨天的贴子,加上网络组织的这部分。

实际上网络组织也存在着同样的现象。如下图所示意,网络组织也存在着“外在形象”、“内在实况”,其外在形象也存在着“离线品牌”和“在线品牌”的关系。下图同时也清楚地展示出“实体组织”和“在线组织”之间的转换关系。


与实体组织打造“在线品牌”能力差的情况相反,网络组织孕育成长于在线环境中,其打造在线品牌的能力与生俱来,而在由于经费预算以及执行管理的问题,网络组织打造离线品牌的能力通常很薄弱。

最近关于益学会(Edu2do.com)的一个讨论,就是网络组织的”外在形象”与”内在实况”存在差异的一个案例。

这个讨论缘起于Leolaoshi对益学会的一个批评贴《Educational Blogging的使用体会10:不要翻译》在最近更新的帖子《Educational Blogging的使用體會11: 再談“翻譯”和教育》里,我们可以清晰地看到,益学会的“外在形象”和“内在实况”有些差异了。小容摘要几句在这里:

翻译应该部分集中于“教学”Teaching and facilitating不一定是发生在教室中的教学,但是必须是和教学紧密相关的的文章(至少要又部分涉及教学的文章)。……让大学教师、中学教师来选择和他们教学实践紧密联系的文章,当然益学会也可以推荐翻译。

当我们在关注国外的教育动态的时候,我们必须也应该充分的关注国内课堂中教师的角色转变,教师在E-learning 下是如何引导学生的,这些都是edu2.0的精髓部分,可是在益学会的翻译中我却很少看到这样的文章出现,我觉得作为一个教师的“职业良心”让我提笔写了以前的那篇“不要翻译” 有点过激但是希望有人可以“读懂”的文章。

毫无疑问,益学会(Edu2do.com)已经从一个Blog成长为一个网络组织。目前它的成员大部分还不是教育第一线的老师,而是对学习本身抱有浓厚兴趣的爱好者。现在他们更多地从学习的角度来选取翻译的文章,以及开展学习实践。

但是,益学会的对外形象却是和“教育”紧密挂勾。益学会使用的域名包括Edu,在主页上对外公布的介绍中,也使用“教育”的字样:


益学会(Edu2Do.com)是在网络协作项目“教育中文翻译”基础上发展而来的公益教育项目,是最新教育资讯传播的通道,是创新教育实践的平台,还是一个新型的2.0学习社区,探索在新技术条件下推动中国教育的创新与发展。

我们努力:为中国社会传播新的教育观念,为各类教育者提供实践交流的机会,为志愿者创造学习成长的点滴价值。

一线的教育实践者所理解的“教育”和益学会成员所理解的“教育”显然意义不同。这种语义的分歧,导致外在形象解读为不符内在实况。

当然,我并不认为所益学会就要修改他们当前的宣传措词,以纠正公众对他们的内在实况的认知。正如上篇贴子所说的,适度的美化并不需要谴责,因为可以起到自我激励的功效。

从社会心理学的角度来看,品牌管理其实是一种自我展示行为(self-presentation behavior)。在社会心理学家看来,策略性的自我展示并非必然意味着我们想欺骗别人(虽然有时候确实如此)。多数时候策略性的自我展示“只涉及到选择性的暴露和遗漏,抑或只是选择重点和时机等问题,而不是无耻的谎言和虚伪”。

自我展示行为的功能之一是自我建构。社会心理学家也认为这种自我建构能够起到激励的作用,人们希望成为他们所宣称的那类人(Goffman,1959;Schlenker,1980)。当他们公开宣布自己的打算,或者其他与身份相关的东西,他们就会感到更多的压力要做好它。

小容相信,在这次讨论过后,益学会将会邀请更多于教学第一线的教育实践者加入,并增加关于教育实践的更多资讯。例如,他们现在正在进行的ITM中版项目,其原始项目就是由Google赞助的Infinite Thinking Machine项目,该项目专注于向K12领域推广创新学习技术措施及理念,对中小学教师和学生来说极具实践参考价值。

下一篇将从社交网络角度来看企业的显性结构和隐性结构。

前文回顾:

1、《从个体社交图(Individual Social Graph)到群体社交图(Group Social Graph)

2、《呈现群体的在线共同身份有何价值?

3、群体的虚拟身份和真实身份:外在宣传 V.S. 内在实况

11:30 我工作的地方 » Just 平生一笑

联络家工作有一个阶段了,今天2008特别版台历向外发送,顺便用Palm Treo 680拍了几幅工作环境的照片。Palm Treo 680的摄像头是30万像素的,质量真是不好,将就着看吧,呵呵。


联络家Logo

我坐在会议室旁边,抬头就是巨大的联络家Logo。

2008特别台历

2008特别版台历。

办公桌侧面

侧面,有些植物。

10:19 宇宙学的终结 » 格致 - 一起格物致知

【文】sukye

从大爆炸开始,宇宙一直长大。

十年来观测到宇宙正在加速膨胀,除了物质之外,我们还需要黑暗的力量。

它就是暗能量,一种未知的能量密度,爱因斯坦的宇宙学常数。

当宇宙膨胀时,物质密度降低了,它自岿然不动。

不管开始有多少,它总有一天成为主导。事实上,现在,它占74%,物质才26%。

明天呢?它会更多,宇宙也会更加速的膨胀。

甚至快到远远超过光速。

假设我们现在的可见宇宙中有1万亿个星系。远处的它们离开得这么快,光再也来不及传到我们这,也就是说,它们永远的从我们的宇宙中消失了。我们拥有着前所未有的庞大的可见宇宙,却只能看到9千亿个星系,8千亿个。。越来越少。。

而近处的星系呢,它们之间的引力胜过宇宙膨胀的影响,它们将会聚,10个变8个,变5个,直到只有一个。

所以在可预见的将来,也许几千亿年之后,可见宇宙的中心是个巨大的星系团,而之外,除了极少的流浪者,是更加硕大的真空。远处的光正在传来,可是永远也到达不了。

褒姒等不到诸侯,西施浣纱不见小鱼儿,贵妃吃不到荔枝,貂蝉不知月全食,文成到不了香格里拉。

整个宇宙,成为孤岛的集合。

而宇宙学也就不存在了。

因为再也不会看到我们现在看到的一切。背景辐射的波长超出了当时可见宇宙的大小,观测原初核合成需要的星际物质不再可见。等等。

质子也不知道是不是已经衰变了。。

大爆炸?天文圣经中有传说,但我们从来没看到过任何痕迹,也不相信神迹。
【sukye原创】
Thomas Kuhn在他的被社会学家广为传唱的《The Structure of Scientific Revolutions》中详细讨论了scientific paradigms的shift,我相信他,还有绝大多数人从来没有想到,一门成熟科学的终结,竟然是因为这个对象再也不可测量了。

确实我们知道很多东西已经或正在消失,比如暴涨抹平其之前的信息,黑洞吞噬进入的信息,量子测量只选择叠加态中的某一个,但是,作为可见宇宙的整体,这样的事情也发生就实在让人气馁。我们现在意气风发的要看的更多更远,我们的知识在累积在修正,在通向终极真理,如果它存在的话;而若干年后,姑且不谈是否有生命在继承这些知识,这些知识本身就变的不可证明也无法证否,更要命的是,完全无用。

宇宙学就象某个桃花源,曾经快乐的生活过,然后全然的消失了。

参见
scientific american march 2008


^==Back Home: www.chedong.com

^==Back Digest Home: www.chedong.com/digest/

<== 2008-02-23
  二月 2008  
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29    
==> 2008-02-25