Source favicon21:54 两位 DBA 的站点被黑 » DBA notes
今天收到消息, eygle.com 被黑了。anysql.net 的内容也放在 eygle 的服务器上,一起遭殃。入侵者删除了所有数据。eygle 与 anysql 都是国内 Oracle DBA 圈子知名人士,想不到。 说起这个事情, eygle 很是黯然: 被黑客攻击了,数据全被删除,eygle.com 宣布无限期关闭。 刚才去看,已经恢复了部分内容。不过据说是没有最近的备份,只能恢复到三月份的状态。损失可谓惨重。 不知道是不是"专注观察天上的星星,而没有注意脚下的坑",个人站点的备份也是需要时刻注意做的啊。 eygle 的站点我记得很久以前就曾经有过安全问题,留言版可以进行脚本攻击。后来改进了许多。不知道这次是不是被跨站脚本攻击(XSS) 取得 MySQL 登陆用户,进而提升到 root 。重新开放后,他的留言板还在使用,要当心。
Source favicon20:11 Oracle SES 爬虫 » DBA notes
百度认为企业搜索市场是鸡肋,可 Oracle 公司正在该领域投入重兵,磨刀霍霍。前几天,Oracle 公司率先使用自家产品 Oracle Secure Enterprise Search 打造自己的站内搜索:http://search.oracle.com 。 观察一下 Oracle Secure Enterprise Search(SES) 的爬虫: "GET /OpenSource.htm HTTP/1.0" 200 7336 "-" "Oracle Secure Enterprise Search" "GET /Publications.htm HTTP/1.0" 200 6959 "-" "Oracle Secure Enterprise Search" "GET /OracleTech.htm HTTP/1.0" 200 14086 "-" "Oracle Secure Enterprise Search" "GET /Others.htm HTTP/1.0" 200 5863 "-" "Oracle Secure Enterprise Search" "GET /Others/Service.htm HTTP/1.0" 200 4268 "-" "Oracle Secure Enterprise Search" "GET /Others/AboutMe.htm HTTP/1.0" 200 5186 "-" "Oracle Secure Enterprise Search" 爬虫的名字就叫做 Oracle Secure Enterprise Search 。Web 日志上抓不到版本号。从 SES 服务器端的日志上可以得知目前的爬虫版本号为 10.1.6。
Source favicon20:03 作答 “Web 2.0的核心思想” » blog中文翻译
什么是Web 2.0?一种广泛接受的说法是:Web 2.0是一种依赖于社区来定义和发掘网络的新的社会型网络服务(social Web services)趋势。我个人不同意这样的说法。我更愿意把这种网络称为Web 1.5,它是迈向语义网络(Semantic Web)的关键一步。而语义网络,才是我所认为的Web 2.0。 作答 “Web 2.0的核心思想”
Source favicon19:29 老电脑 » 桑林志
© 桑葚,来自桑林志 | 老电脑由于实验室里有些设备只有老版本 Windows 下的驱动程序,这一阵子常得使用一些老电脑。砖头样的笔记本,巨大而空旷的台式机机箱,低分辨率的显示屏...
Source favicon16:47 AWStats中的gb2312关键词问题 » 车东[Blog^2]

从上7月开始:我发现自己的AWStats统计中出现了gb2312和sitehao123这个关键词而且量很大:
gb2312 6515 11.3 %
spoolsv 3152 5.5 %
spoolsv.exe 2712 4.7 %
cvs 1873 3.2 %
apache 1761 3 %
phpinfo 1600 2.7 %
lucene 1160 2 %
sitehao123 1157 2 %
ant 864 1.5 %
但无论从那个搜索引擎上搜,通过这2个关键词也找不到我的页面啊?检查了一下统计,gb2312从6月份的统计中就开始有了。8月1日,新的一轮AWStats统计开始,仔细检查了一下apache的原始日志:从来源看,应该是来自百度的搜索结果页:
"http://www.baidu.com/s?lm=0&si=&rn=10&tn=sitehao123&ie=gb2312&ct=0&wd=免费杀毒软件&pn=10&cl=3"

其中tn是百度的合作网站代码,ie表示input encoding:表示输入字符串的字符集,而AWStats中有一个选项:
LevelForKeywordsDetection=2 # 0 disables Keyphrases/Keywords detection.
当设置为2的时候,会将来源网址中的所有参数进行遍历和自动识别,容易将一些其他参数的值当成关键词参数,这样的统计结果会丢失来源中实际的关键词。

解决方法:
除了修改awstats.pl代码外,awstats其实在search_engines.pm中有一个参数列表定义:专门用于过滤掉可能产生歧义的参数列表:WordsToCleanSearchUrl
@WordsToCleanSearchUrl= ('act=','annuaire=','btng=','cat=','categoria=','cfg=','cof=','cou=','count=','cp=','dd=','domain=','dt=','dw=','enc=','exec=','geo=','hc=','height=','hits=','hl=','hq=','hs=','id=','kl=','lang=','loc=','lr=','matchmode=','medor=','message=','meta=','mode=','order=','page=','par=','pays=','pg=','pos=','prg=','qc=','refer=','sa=','safe=','sc=','sort=','src=','start=','style=','stype=','sum=','tag=','temp=','theme=','type=','url=','user=','width=','what=','\\.x=','\\.y=','y=','look=');
将tn=和ie=加入到其中:tn=','ie=','
以后输出的参数中就不会有gb2312和tn=的值了。

Source favicon15:45 http://www.ie7.com/ » del.icio.us/chedong
还是 Get Firefox
Source favicon15:30 Google ads now on XM » Googling Google
A Google press release sent out today unveils a partnership with XM satellite radio.  XM has millions of subscribers, giving advertisers a huge audience that is easily targeted on XM's non-music stations through the dMarc advertising platform.Google, Inc., (NASDAQ: GOOG) today announced that it has reached an [...]
Source favicon14:11 And The Answer Is... » Yahoo! Search blog
Over on the Yahoo! Answers blog, the news is out that Dr. Stephen Hawking’s question on Yahoo! Answers, "How will the human race survive the next 100 years?", was resolved today, and the best answer is a thoughtful essay by...
Source favicon12:33 分类遭遇搜索(2):酷讯期待合作 » 酷讯黑板报
不过,换一个角度,大家的误解似乎也有情可原。毕竟酷讯做的事情还没人大规模地开展过,有力度地执行过。从这个意义上说,酷讯在做的是一件十分有风险的事情。因为很多时候,培育市场比开拓市场更加困难,更容易落入“为别人做嫁衣”的下场。现在谁还记得当年第一个做VCD的万燕? 比起当年的万燕,酷讯要做的似乎更多。不光是引导和培养用户使用习惯(现在大多数用户还不习惯用搜索引擎来找房子、朋友),更要着力建立一条产业性的生态链。做这些事情的同时,还要集中精力开发好技术,确保服务不断升级。 即便如此,却有更多的理由支持我们把这件事情不断做下去。一方面,现在的市场需要酷讯。搜索引擎从来都是伴随着海量信息而存在的。263进入分类信息发布市场时曾透露,国内目前已经有超过3000家的分类信息发布网站,这还不包括形形色色的论坛和垂直网站。这么多信息源,而且由于技术门槛问题,没有一家能够重现craigslist的辉煌,所以待1-2年以后分类信息市场逐步成熟起来,用户面临的将是十分分散的和扁平化的分类信息市场格局。这并不是什么好现象。如果一个人需要租房,他必须既登录58,又登录客齐集、263,以及搜房和各类bbs社区。不但如此,由于这种信息是即时性的,时效性很强,他还必须时刻保持几分钟刷1次的备战状态。为了找到最合适的房子,他只有疲于本命。有了酷讯的聚合和搜索能力以及即将推出的alert服务,他所有的问题都可以迎刃而解。 二方面,正因为酷讯在做别人没做过的事情,进入的是全新的市场,所以,酷讯目前基本没有竞争对手。百度、Google不是,58、客齐集更不是。虽然处于分类信息市场的不同层次,但大家做的工作却完全不同。酷讯要努力开发完善自己的信息抓取和抽取能力、、动态更新能力以及智能分析能力等,这些都是搜索引擎所强调的能力。但分类信息发布网站更多的工作可能是,如何保证每条信息尽可能真实有效、分类准确、审核及时,同时尽可能加强品牌建设、提高用户黏度。这些才是他们的工作重点。做好酷讯很难,做好分类信息发布也不是件容易的事情。 正因为此,酷讯一直期待着与通用搜索搜索引擎以及分类信息发布网站进行双赢的合作。在我看来,这种合作具有天然的合理性。酷讯并不想也不能取代谁,一直努力想做好的就是,在分类信息这一前景广阔的市场,发挥搜索引擎应起的作用。仅此而已。 koujian
Source favicon12:05 分类遭遇搜索(1):酷讯在做什么 » 酷讯黑板报
酷讯作为公司正式注册下来,才4个月时间,但酷讯网站已经上线大半年了。即使这样,还是经常有人错误地认为,酷讯是另一家分类信息发布网站,是第二个58,或者是另一家客齐集。 酷讯是搜索引擎,我一直竭尽全力地在向很多人解释和澄清这一点。和“北大是文科大学”的误解一样,作为当事人,我对此总是甚感不安。定位上给用户造成误区,不仅将抹平我们产品的新意,而且极为影响用户体验和市场定位,因而是相当危险的现象。 虽然样子长得和分类信息发布网站差不多,但酷讯里面却埋藏着一颗搜索的心。最确切地说,酷讯是分类信息的搜索引擎。不少人以为只有百度、Google那样的网页搜索才叫搜索引擎,这种观念迫切需要垂直搜索们去更新。由于目前酷讯搜索的分类信息主要集中在生活领域,所以我们又称自己为生活信息搜索引擎。在我们的理解中,这种称谓能够拉近产品与用户的距离。 酷讯上看到的所有信息都不是用户在酷讯上发布的,而是从爬虫在互联网上抓取过来。有人因此说这是“偷”和“剽窃”。如果这种说法成立的话,我不知道除了“偷”和“剽窃”,搜索引擎还可以做什么。此外,更重要的是,酷讯将这些信息爬取过来以后,并不是要自己发布,而只是建立一个索引,供用户去检索。用户检索到某条信息后,如果感兴趣并点击,将马上跳转到原始的信息出处。现在酷讯每天都在给数量可观的发布网站带去数量更为可观的流量,最多的一个每天有近万的独立IP。 除了工作流程与通用搜索引擎如出一辙以外,说酷讯是搜索引擎,还在于酷讯开发者的搜索引擎背景。CEO tony来自天网和微软Live search,COO shichun曾是百度最早期的员工之一。与此同时,公司里来自百度和天网的普通员工更不在少数。这么多搜索引擎背景的人,再怎么突发奇想,也不会去做自己一点不熟悉的分类信息发布。 下一篇 分类遭遇搜索(2):酷讯期待合作  koujian
Source favicon11:30 中国被黑站点统计系统 » del.icio.us/chedong
国内被黑网站列表
08:00 2006/08/02 08:00:00TQ洽谈通搜索力指数排行榜 » TQ洽谈通搜索力指数
 搜索引擎  搜索力指数  排名升降  份额
1. Baidu  47293890     65.92%
2. Google  6570646     9.16%
3. Yahoo  6343274     8.84%
4. Sogou  4229182     5.89%
5. 3721  3521554     4.91%
6. QQ  1754790     2.45%
7. Tom  494010     0.69%
8. MSN  421006     0.59%
9. China  408034     0.57%
10. 163  360758     0.50%
11. iAsk  244874     0.34%
Source favicon04:29 Anatomy of a(n ongoing) Disaster.. » DreamHost Blog
What a three weeks… As I’m sure most of you already know, we’ve had nothing but troubles, large troubles, for pretty much the last three weeks. A lot of these troubles were our fault, a couple of them were at least ostensibly beyond our control, and they all compounded each other. Here I’ll try and go into [...]
Source favicon04:05 rss + river of news + opml = LiveJournal? » ProNet
If we mentioned a hosted web service that’s been around since 1999, offering powerful blogging, RSS publishing, RSS aggregation, a river-of-news style view of posts, and the ability to export any of your feed lists as OPML, you’d probably think...
Source favicon03:28 Detailed analysis of the new AdWords landing page algo » JenSense - Making Sense of Contextual Advertising
A few weeks back, I wrote about the impending Google AdWords landing page algo, and how it could affect those doing click arbitrage. Since the new algo launched, I did an interview with Google AdWords on the new algo and...
Source favicon00:01 搜索的下一步 » Blog on 27th Floor
Google Operating System说这个,还是有点语义网的意思。他们认为搜索下一步应该是辨认网页是什么意思,包括什么是产品评论,这个评论是正面还是负面等等,甚至于认清每一段是什么意思,在说些什么。

当然了,似乎Google不喜欢这个思路。比如这个报道,Norvig就反驳TBL的说法,认为这个语义网不行:一是许多人不会写HTML,二是有些大机构可能不接受这些新标准,三是可能会有欺诈。我想他也许是基于现有的发展吧。或者是被AI的悲观前景影响了

GOS这个贴子的透露的信息,Google实际上可以分辨导航和内容,链接的好坏(付费的还是正常的),还有网页的主旨和它的关键词,可以认出Amazon和IMDB上的评论。在另一个贴子中,他们还发掘出一些新的搜索方法,可以找到一些简单的事实性的东西,有What is/who is/when is/where is,这里What is就相当于define,who is相当于info(???)。很明显的进步啊。

^==Back Home: www.chedong.com

<== 2006-08-01

==> 2006-08-03