最近Winter刚教会了我一个文件比较命令: comm,是一个比diff更简单的取2个文件交集/补集的方法。原先以为需要用join 2个表的方法,现在很少几个参数就实现了。
随着时间的积累,我发现原先很多需要用数据库才能实现的排序,过滤,分列输出其实都可以shell代替了:而且效率更高。目前正在整理积累起来的oneliner工具集,经常使用的有:
awk: 可用用作select 控制指定列的输出,并且附带了length() mod 等简单函数,通过if条件还可以实现更复杂的判断逻辑,而且比perl更容易读
sed: 控制到某一行的输出 相当于limit 30,40
perl:正则表达式 过滤,替换,非常强大,网上可以找到很多的one liner的现成工具,不过阅读起来有些困难;
sort: 相当于 order by
uniq: 相当于distinct
grep: 相当于like, not like
wc: 相当于count()
再加上翻页输出more head等。结合报表输出工具:GNUPlot,R-Project等,就可以生成漂亮的报表了。谈不上数据挖掘,但是用于一些简单actionable data采集确实是非常快速有效。
搜索引擎 | 搜索力指数 | 排名升降 | 份额 |
1. Baidu |
62917730 |
![]() |
42.98% |
2. 3721 |
39306702 |
![]() |
26.85% |
3. Google |
27858074 |
![]() |
19.03% |
4. 163 |
2930334 |
![]() |
2.00% |
5. Sohu |
2840330 |
![]() |
1.94% |
6. Sina |
2427758 |
![]() |
1.66% |
7. Yisou |
2105082 |
![]() |
1.44% |
8. Yahoo |
1740102 |
![]() |
1.19% |
9. Sogou |
1533762 |
![]() |
1.05% |
10. QQ |
1438470 |
![]() |
0.98% |
11. Tom |
973018 |
![]() |
0.66% |
12. Zhongsou |
169134 |
![]() |
0.12% |
13. China |
153162 |
![]() |
0.10% |