找出两个文件之间的不同

2012年12月20日 发表评论 阅读评论

最近在写一个对比/etc/dhcpd文件的配置IP和arp -n获取的IP比对的脚本。这就要找出两个输出文件之间的差别——即在文件1中有而在文件2中没有部分,或者在文件2中有而在文件1中没有的部分。实现该功能,网上常见的有四种方法,不过在实际测试中发现有一种方法的结果是不准确的。即实际上有三种常见方法可以实现。

方法一:comm命令实现

comm命令的参数

-1   不显示只在第1个文件里出现过的列。
-2   不显示只在第2个文件里出现过的列。
-3   不显示只在第1和第2个文件里出现过的列。

comm命令是一个非常简洁的命令,其只有两个参数。不过三个参数也结常要组合使用,我们常用的用法如下:

comm - 12     就只显示在两个文件中都存在的行;
comm - 23    只显示在第一个文件中出现而未在第二个文件中出现的行;
comm - 123  则什么也不显示。

comm找出文件2中有,文件1中没有的行:

cat /etc/dhcpd.conf|grep "fixed-address"|grep -v ^#|awk '{print $NF}'|sed 's/;//g'|sort > /tmp/1.txt
arp -n|grep ether|grep -v eth0|awk '{ print $1}'|sort >/tmp/2.txt
comm -23 2.txt 1.txt

注:两个文件的内容在比较前,一定要进行sort排序。不然输出的结果将是错误的

方法二:diff命令比较

diff命令是一个比较经典的文本比较工具了,diff命令较comm的参数要多。其经常和patch命令组合使用,进行补丁升级。其默认使用的是-a参数,即逐行比较两个文件之间的不同。此处我们要实现想要得到的结果,还需要配合grep和awk实用:

diff 2.txt 1.txt |grep "<"|awk ' $1 = " " '

注:此处也发现,在使用diff命令进行比较时,也需要预先对经比较的文件进行sort排序,不然输出的结果同样是不正确的

方法三:awk实现

awk应该算是shell常用命令中的泰山北斗了,几乎很多其他命令能完成的工作,awk都能完成(只不过有些写起来可能比较复杂)。本例中也不例外:

awk 'NR==FNR{a[$0]++} NR>FNR&&!a[$0]' 1.txt 2.txt

找出两个文件之间的相同部分可以使用

awk 'NR==FNR{a[$0]++} NR>FNR&&a[$0]'  1.txt 2.txt

下面的两个语句也可以换成:

awk  'NR==FNR{a[$0]}NR>FNR{ if(!($1 in a)) print $0}' file1 file2 找出文件2中不同的值
awk  'NR==FNR{a[$0]}NR>FNR{ if($1 in a)    print $0}' file1 file2 找出两文件中相同的值

注:

1、awk实现时,并不需要事先对两个文件进行sort排序,

2、注意和上两个命令中两个文件的放置顺序是不同的。三种实现方法,文件的顺序一定颠倒,颠倒了,效果就刚好想反了,就变成找出文件1中有文件2中没有的行了。

方法四:grep误人子弟法

网上另外流传一个错误的方法,即通过grep命令实现:

grep -v -f 1.txt 2.txt 

经测试,无论我事先是否对两个文件进行sort倒序,此方法输出的结果,发现都是不正确的。也许grep也能实现该需求,只不过我使用的参数有问题。不过,如果有人能通过grep直接实现,还请不吝告知。




本站的发展离不开您的资助,金额随意,欢迎来赏!

You can donate through PayPal.
My paypal id: itybku@139.com
Paypal page: https://www.paypal.me/361way

  1. 芥末
    2017年12月27日17:38 | #1

    grep -vFf file1 file2 可以,但是对比很耗系统资源,不建议使用。