10:16 Summize Realtime Twitter Search » WebLeOn's Blog

评论搜索引擎Summize刚刚推出了Twitter搜索功能,这可能是到目前为止最好的一款Twitter搜索工具了。

Summize的Twitter搜索引擎通过扫描Twitter的Public Timeline来完成索引,搜索结果更新非常快,几乎是实时。Summize Twitter Search在功能方面也是比较完整,除了提供比较多的搜索选项及Atom输出外,还提供了搜索API方便其它应用整合它的搜索结果。

另外Summize Twitter Search还有几个比较有特色的地方:
- 可以直接对某条结果进行回复;
- 可以显示和某条搜索结果相关的两人对话;
- 可以把搜索结果直接发布到Twitter;
- 可以按照不同语言进行搜索(还没有中文);
- 可以快速添加浏览器搜索插件。

和其它类似的搜索工具比起来,Summize的这个Twitter搜索功能较多,还增加了不少和Twitter互动的功能,非常不错。如果能加上TweetScan那样的统计,对我来说会更加好玩。
09:07 利用Header机制隐掉Vary,提高mod_cache缓存的命中率 » 车东[Blog^2]

HTTP 1.1的规范建议所有的请求输出都包含Vary Header,目的是针对对前端缓存服务器,增加针对Vary制定的各种Header类型进行不同的缓存处理,在浏览器规格复杂的情况下,不利于缓存的命中,所以要在被缓存的服务器上设置:

Header unset Vary

问题是这样被发现的:最近使用Apache 2.2的内存缓存mod_mem_cache机制进行后台静态文件加速。但是总是发现几乎是只代理而不缓存,而内存缓存模式又没有统计工具查看缓存内容和命中率。转为用mod_disk_cache后,前端缓存目录空间增加非常快,以至于经常需要删除文件,而删除文件的I/O损失超过了直接访问后台访问的加速所得。后台明明只有几M模板图片和CSS文件,为什么缓存空间上G而且命中率那么低呢?查看了一下缓存目录下的文件,Apache的前端磁盘缓存就会根据浏览器除了针对内容的.data文件和.header文件外还有一个.vary目录,而这个vary目录下又会按照顶级的cache规则再mapping出2级目录来,目录节点个数过多造成磁盘空间的浪费:

a/b/Jqyw8OvBIlgaef7Zb8lQ.data
a/b/Jqyw8OvBIlgaef7Zb8lQ.header
a/b/Jqyw8OvBIlgaef7Zb8lQ.header.vary/a/b

当遇到和原有Vary不同的Header时,会在 header.vary目录下生成更多的缓存;从Apache的讨论组上看原因就是IE的AcceptEncoding请求头信息里增加了一个空格
IE : Accept-Encoding: gzip, deflate
Firefox: Accept-Encoding: gzip,deflate

于是按照Fernando的方法,将后台的Vary Header禁掉了。缓存空间立刻停止了增长(还是个别有header.vary目录出现)。

另外一个配置优化是不要启用后台的Expires Header;

ExpiresActive off

由前端的Cache服务器设置缓存规则,基本上到后台的访问就很少了;

记录一个调试缓存缓存用命令行看Header输出的方法:
curl -I 查看HTTP头信息;
查看缓存后输出结果:
curl -I http://www.example.com/foo.bar
查看缓存前的服务器输出:
curl -I -H "Host: www.example.com" http://ip.address.of.example/foo.bar

[chedong]$ curl -I -H "Host: public.blogbus.com" http://192.168.1.17/rss/xianguo.png
HTTP/1.1 200 OK
Date: Sat, 12 Apr 2008 07:09:51 GMT
Server: Apache
Last-Modified: Mon, 28 Jan 2008 03:34:55 GMT
Accept-Ranges: bytes
Content-Length: 1353
Content-Type: image/png

[chedong]$ curl -I http://public.blogbus.com/rss/xianguo.png
HTTP/1.1 200 OK
Date: Sat, 12 Apr 2008 07:10:01 GMT
Server: Apache/2.2.8 (Unix)
Last-Modified: Mon, 28 Jan 2008 03:34:55 GMT
Accept-Ranges: bytes
Content-Length: 1353
Cache-Control: max-age=20736000
Expires: Mon, 08 Dec 2008 06:27:41 GMT
Node: B01-AD-01
Age: 2540
Content-Type: image/png


^==Back Home: www.chedong.com

^==Back Digest Home: www.chedong.com/digest/

<== 2008-04-11
  四月 2008  
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30        
==> 2008-04-13