« 2006年02月 | (回到Blog入口) | 2006年04月 »

2006年03月 归档

2006年03月03日

debian上使用rc.local

习惯了FreeBSD和RedHat上使用/etc/rc.local 定制服务的自动启动,最近用Debian还真有些不习惯。以下是我搜集到的资料:在debian上创建rc.local文件。

创建文件:
sudo touch /etc/init.d/rc.local
设置可执行:
sudo chmod +x /etc/init.d/rc.local
用update-rc.d设置启动级别:
sudo update-rc.d rc.local start 20 2 3 4 5 . stop 20 0 1 6 .

为了编辑方便,创建一个链接:
sudo ln -s /etc/init.d/rc.local /etc/rc.local

cat /etc/rc.local
# start apache
/home/apache/bin/apachectl start

重启一下,没有问题。

后记:Debian 下没有 rc.local ,不过有一个替代品,就是 /etc/init.d/bootmisc.sh 文件(可以将/etc/rc.local 链接过去)
大家有什么需要启动后运行的,尽管往里面塞 :-P

类似的:也是使用update-rc.d 将相应服务设置成启动就可以了。

按此阅读全文 "debian上使用rc.local" »

2006年03月05日

Wiki is flat

最近很热门的一本书:
其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;

简单比较一下传统的BBS和Blog Wiki之间的发布模式:

论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。
- web - ?Forum=1 - ?post=1
                |- ?post=2
                |- ?post=5
      - ?Forum=2 - ?post=4
                |- ?post=22
                |- ?post=8

Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档 BLOG: Better Listing On Google
- index - post10.html
       |- post9.html
       |- monthly_archive  - post8.html
                          |- post7.html
       |- category_archive - post8.html
                          |- post2.html
                          
由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。邮件列表归档和blog的发布结构非常像:邮件列表归档也有按时间归档的机制,并且使用permalink,

WIKI完全扁平的发布格式,内容之间链接/引用丰富。
|- topic1 -> topic2
          -> topic3
|- topic2 -> topic3
|- topic3 -> topic2
          -> topic1

在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。
rss.xml  - post10.html
        |- post9.html
        |- post8.html
什么是Tag:
和原有的固定分类相比,tag可以提供一个更灵活的“多对多”类聚方法,在自动分类实现难度很高的情况下,让作者/编辑在发布内容的时候附上几个关键词,可以帮助内容之间实现更丰富的引用。关键词越多,类聚就越精确。很多blogger之间还使用一些特殊制造出来的关键词,利用technorati这样的blog引擎实现在更大空间内的聚合。 什么是PermaLink:
PermaLink给搜索引擎和其他应用一个承诺:在未来很长一段时间内,这个链接和其对应的内容是稳定的。搜索引擎也不喜欢带有复杂参数的动态链接,因为 foo.php?a=1&b=2和foo.php?b=2&a=1 可能是一个页面。搜索引擎更希望索引 foo/a/b 这样的稳定内容链接。而且尽可能直接将用户导向到他需要的内容页,而不是内容经常变换的首页/索引页。

按此阅读全文 "Wiki is flat" »

2006年03月19日

基于群体分析发现网站的相关性

今天看:

其中谈到了Amazon的a9.com中的搜索历史等功能对于用户的帮助。忽然想到Google的搜索结果页上有一个不怎么常用的相关网站功能:其实是一个很有用“发现”的功能,这种发现完全是不基于“字面”的,我感觉是经常看当前网网站的人,还经常看哪些内容的用户群体统计结果。

具体是怎么实现的呢?设想了一个实现的方案:在搜索结果中(也许是Toolbar/搜索历史等来源)将用户每次点击都记录下来,然后根据域名汇总:然后建一个用户=>访问过的网站的反相索引。通过统计就可以发现:点击chedong.com上内容的用户,还经常去看哪些网站。当然:如果超市中“牛奶”是几乎每个人都购买的,就不应该出现在“牙膏”的相关推荐中,而"牙刷"就是一个比较好的推荐。因此还需要根据这些网站的流行度和同现度综合加权,就找到了当前网页(网站)的相关网页。尿片和啤酒的经典统计案例应该也是类似的机制。

Amazon的买了这本书的人:同时还喜欢什么书。豆瓣的“猜你会”喜欢什么书。应该也是类似机制实现的。

请教:
在数据挖掘中:这种同现度的发现机制的专业说法(术语)应该是什么?"association rules" “SPSS的clementine
目前有那些已经实现的方案和统计工具?weka spss

按此阅读全文 "基于群体分析发现网站的相关性" »

2006年03月20日

搜索引擎蜘蛛多长时间更新一次DNS

为了加快抓取速度,专业的搜索引擎大部分有DNS缓存:但是搜索引擎多长时间更新一次,3月4日的时候cnblog.org进行了一次IP切换。旧服务器上的日志和统计并没有停止:AWStats数据统计如下。
搜索引擎网站的机器人 (前 10)   -   全部列出   -   最近参观日期 	 
35 个机器人*	文件数	字节	最近参观日期
Sina Iask	2509	38.61 M字节	2006年 三月 09日 18:32
OutfoxBot	838	9.81 M字节	2006年 三月 15日 02:31
Yahoo Slurp	419+66	6.09 M字节	2006年 三月 19日 21:38
BaiDuSpider	137+36	2.17 M字节	2006年 三月 18日 06:31
Googlebot	147+2	1.74 M字节	2006年 三月 11日 19:03
Unknown robot (identified by 'crawl')	130+1	1.56 M字节	2006年 三月 18日 13:33
Turn It In	93	236.54 K字节	2006年 三月 04日 01:33
MSNBot	80+7	1.52 M字节	2006年 三月 04日 04:37
BecomeBot	77+2	920.27 K字节	2006年 三月 04日 13:37
Bloglines	71	43.51 K字节	2006年 三月 04日 04:08

按此阅读全文 "搜索引擎蜘蛛多长时间更新一次DNS" »

2006年03月22日

我发明的版权协议?

这是4年前注册了自己的网站后我在文章模板中设置的一个版权信息:
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明

今天查了一下:这个版权声明还挺流行的 ;-)
百度一下:找到相关网页约19,700篇
雅虎搜索: 约 4,050 项
Google搜索:约有8,650项符合

按此阅读全文 "我发明的版权协议?" »

2006年03月29日

CC China 2.5协议正式发布

CC China 2.5协议正式发布 - Wikinews
这里有一个版权生成器:http://creativecommons.org/license/,也可以通过MT的配置中选择:
cc_by_sa.png

按此阅读全文 "CC China 2.5协议正式发布" »

2006年03月31日

hl_ftien_spider原来是海量的蜘蛛

最近很多站点都发现了一个名叫hl_ftien_spider的蜘蛛,这个蜘蛛的抓取频度:可是相当的厉害,几乎和DoS攻击差不多,自然也引起了不少公愤:


今天网站流量再度攀升,经检查原来是一个名为"hl_ftien_spider"的蜘蛛在疯狂的爬我的网站网页.

grep hl_ftien_spider access_log.20060304 |awk '{print $1 $2 $4 $3 $12}'

218.68.240.81-[04/Mar/2006:22:57:11-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:27-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:28-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:28-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:45-"hl_ftien_spider"
218.68.240.81-[04/Mar/2006:22:57:46-"hl_ftien_spider"

................

这样胡乱爬网页跟攻击没有什么区别,马上封了该ip地址,iptables在封锁ip上还是非常有效的:

iptables -A INPUT -s 218.68.240.38 -j REJECT

查询了一下该Ip地址,是来自天津的:

您要查询的是"218.68.240.38",它被理解为"218.68.240.38"

官方数据:
在亚洲与太平洋网络信息中心(APNIC)找到:

% [whois.apnic.net node-1]
% Whois data copyright terms http://www.apnic.net/db/dbcopyright.html

路由: 218.68.0.0/15
单位全名和地址: CNC Group CHINA169 Tianjin Province Network
国家或地区: 中国
自治域(AS): AS4837
维护者: MAINT-CNCGROUP-RR
变更记录: abuse@cnc-noc.net 20060118
信息来源: APNIC

谁知道这是哪家的蜘蛛出来乱爬么?

Google上也没有有用的信息,似乎是流氓引擎吧.


看看WebMasterWorld上的评论:
 This bot hit my site today, picked up robots.txt, then picked up a few dozen pages - and tried to pick up about 1800 more pages after it hit a bot trap.

All of which it did within 4 minutes.

The IP is the same as you had, and it resolves to net263.com in China.
I've banned it.

我今天从服务器的突然后台负载增高也发现了这个蜘蛛,上月的一次大量抓取来自上海某高校,当时不得不将我的twiki改成了认证登录。


60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/nl/3ncurses HTTP/1.1" 200 10235 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/printw/3ncurses HTTP/1.1" 200 4939 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/curl_mvsnprintf/3 HTTP/1.1" 200 6830 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:42 +0800] "GET /phpMan.php/man/HTML::Element/3pm HTTP/1.1" 200 61844 "http://www.chedong.com/phpMan.php/man/class/1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/vw_printw/3ncurses HTTP/1.1" 200 4948 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/vprintf/3 HTTP/1.1" 200 30165 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:43 +0800] "GET /phpMan.php/man/yes/1 HTTP/1.1" 200 3301 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:44 +0800] "GET /phpMan.php/man/snprintf/3 HTTP/1.1" 200 30168 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:45 +0800] "GET /phpMan.php/man/vfprintf/3 HTTP/1.1" 200 30168 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731
60.28.249.27 - - [31/Mar/2006:17:32:45 +0800] "GET /phpMan.php/man/scrollok/3ncurses HTTP/1.1" 200 10253 "http://www.chedong.com/phpMan.php/man/output./1" "hl_ftien_spider" 60.28.249.27.38631143794139731

网站稍微差一点的都会承受不住压力的。我今天顺着来源的IP地址看了一下,http://60.28.249.27/ 这不是海量的DIGDIG搜索引擎的论坛吗?

按此阅读全文 "hl_ftien_spider原来是海量的蜘蛛" »

关于 2006年03月

此页面包含了在2006年03月发表于车东[Blog^2]的所有日记,它们从老到新列出。

前一个存档 2006年02月

后一个存档 2006年04月

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36