GNU工具箱:充分用命令行代替SQL


最近Winter刚教会了我一个文件比较命令: comm,是一个比diff更简单的取2个文件交集/补集的方法。原先以为需要用join 2个表的方法,现在很少几个参数就实现了。

随着时间的积累,我发现原先很多需要用数据库才能实现的排序,过滤,分列输出其实都可以shell代替了:而且效率更高。目前正在整理积累起来的oneliner工具集,经常使用的有:
awk: 可用用作select 控制指定列的输出,并且附带了length() mod 等简单函数,通过if条件还可以实现更复杂的判断逻辑,而且比perl更容易读
sed: 控制到某一行的输出 相当于limit 30,40
perl:正则表达式 过滤,替换,非常强大,网上可以找到很多的one liner的现成工具,不过阅读起来有些困难;
sort: 相当于 order by
uniq: 相当于distinct
grep: 相当于like, not like
wc: 相当于count()

再加上翻页输出more head等。结合报表输出工具:GNUPlotR-Project等,就可以生成漂亮的报表了。谈不上数据挖掘,但是用于一些简单actionable data采集确实是非常快速有效。

传统的数据库思维对于开发人员来说是一种“瓶颈”:有很多应用是完全可以用比数据库更简单的结构(方法)实现的,这也是为什么除了Oracle这样功能丰富的数据库系统外,MySQL SQLLite gDBM等轻量级数据结构存在和发展的原因。其次:数据库工具很多都是面向精确输出的,但是对于海量数据的处理来说,很多特定应用的精确性其实可以要求不那么高,比如:搜索引擎,最重要的是用很快的速度将最好的TOP 10结果提供给用户。

而相对于Excel表格,命令行工具优势在于长期的后台(非交互式的)自动数据统计,一件事情如果能自动运行,好处真是太多了。

作者:车东 发表于:2005-06-08 19:06 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

UNIX shell的语法太没规律了,除非天天用,几天就忘干净了,每次都要查

我觉得 perl 应该独立出来,perl 实在和其它工具不是一个档次的:

expr/sed/sort/uniq/wc/[e]grep/head/tail/xargs/find 等等这些属于 shell 的增强工具

awk 几乎可以算一个 mini 的脚本语言了

perl 已经很高级了,尤其是无数的 cpan 包..不过在我们团队内目前 php 处于类似的地位.

回楼上:
主要是看用这些东西来做什么,如果单独开发,perl可能独立出来有需要,但是分析一些文本是我最常用的,我需要的是一个命令串就能让我看到我想要的,而不是去写一个脚本来执行。所以我基本上不会用perl:(,更深层次的原因是因为我没有这个需要。
另外,有时候感觉cut比awk更方便,也可能是因为文本简单的缘故。

我觉得使用自己熟悉的语言相当重要,以前我就用labview写数学统计程序,其实用matlab更合适,但我不会。

sort A A B |uniq -u
可以简单求出 B-A

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)