Linux文本文件的比較

   在Linux平臺常用的文本比較工具是diff或者vimdiff,但是看起來有點難懂,推薦另一個方法。

   通過sort/uniq獲取文件內容的交集、合集和不同之處:假設有a、b兩個文本文件,文件本身已經去除了重複內容。下面是效率最高的方法,可以處理任何 體積的文件,甚至幾個G的文件。(Sort對內存沒有要求,但也許你需要用 -T 參數。)可以試着比較一下,你可以看看如果用Java來處理磁盤上文件的合併,需要用多少行代碼。

cat a.txt b.txt | sort | uniq > c.txt       # c 是a和b的合集
cat a.txt b.txt | sort | uniq -d > c.txt    # c 是a和b的交集
cat a.txt b.txt | sort | uniq -u > c.txt    # c 是a和b的不同

   這個在腳本中應用起來比較方便。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章