linux 統計文件字段並排序

原創

2020-02-24 12:09

問題1：現在有一萬多條記錄，其中包含重複的記錄，每條記錄佔一行，問如何從這些記錄中找到數量排名前10的記錄？

$ sort datafile | uniq -c | sort -k 1 -n -r | head -n 10
解析：
- sort date
  - 表示對data文件中的內容進行排序。sort命令是對於每一行的內容根據字典序（ASCII碼）進行排序，這樣可以保證重複的記錄時相鄰的。
- sort data | uniq -c
  - uniq -c 表示合併相鄰的重複記錄，並統計重複數。因爲uniq -c 只會合併相鄰的記錄，所以在使用該命令之前需要先排序。
- sort data | uniq -c | sort -k 1 -n -r
  - 經過uniq -c 處理之後的數據格式形如"2 data"，第一個字段是數字，表示重複的記錄數；第二個字段爲記錄的內容。我們將對此內容進行排序。sort -k 1表示對於每行的第一個字段進行排序，這裏即指代表重複記錄數的那個字段。因爲sort命令的默認排序是按照ASCII，這就會導致按從大到小進行排序時，數值2會排在數值11的前面，所以需要使用-n 參數指定sort命令按照數值大小進行排序。-r 表示逆序，即按照從大到小的順序進行排序。
- sort data | uniq -c | sort -k 1 -n -r | head 10
  - head 命令表示選取文本的前x行。通過head 10 就可以得到排序結果中前十行的內容。

cat datafile | awk '{print $1}' | sort | uniq -c | sort -k 1 -n -r | wc -l > result.txt

按照文件中第一個字段，做統計

awk ‘{print $1}’：日誌記錄中的第一個字段

統計一個文件中所有單詞，並按出現頻率排序 (單詞以'\t', ' ', '\n'分割)·

tr -s "\t| " "\n" < list_of_not_defined_keywords.csv | sort | uniq -c | sort -k 1 -n -r

參考文章：

巧用Linux命令完成統計排序功能

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Linux學習第四節文件權限修改

一、Ubuntu/Linux文件權限文件權限是指不同的用戶或用戶組對某個文件擁有的權限，文件的權限分爲三種： r：讀 w：寫 x：可執行。文件描述形式如下： ls -l 可以查看文件的具體信息得到的結果如下所示： -rw

没有价值的生命

2020-07-08 12:18:04

Linux學習第三節 Ubuntu下的系統管理（未完成）

一、Ubuntu磁盤文件 /dev/sd*文件，此類文件是磁盤設備文件，並不能直接訪問磁盤，必須要將磁盤掛載到某一個目錄下才可以訪問。 /dev/sdb和/dev/sdb1是U盤的設備文件。 /dev/sdb表示U盤，/dev/s

没有价值的生命

2020-07-08 12:18:04

Linux學習第二節系統文件結構

/bin 存放二進制可執行文件，這些命令在單用戶模式下也能夠使用。可以被root和一般的賬號使用。 /boot Ubuntu內核和啓動文件，比如vmlinuz-xxx。gurb引導裝載程序。 /dev 設備驅動文件 /e

没有价值的生命

2020-07-08 12:18:03

Linux學習第五節 vim編輯器的使用

一、vim編輯器 Linux系統都會自帶vi編輯器，但是vi編輯器太難用了！所以建議大家安裝vim編輯器，安裝命令： sudo apt-get install vim 二、vim編輯器三種工作模式 vi xxx 使用vi編輯器打

没有价值的生命

2020-07-08 12:18:03

Docker 常用命令更新中。。

docker pull tomcat:8.5 從鏡像倉庫中拉取或者更新指定鏡像 :是指定版本否則下載默認的latest版本 docker image list 查看本地的所有鏡像 docker rmi -f tomcat:8.5 刪除

2020-07-07 08:32:49

Linux_遠程登錄管理工具

橋接：是與真實的網卡進行連接，可以在同網卡下其他虛擬機進行通信 NAT:通過虛擬出來的網卡進行連接。也可以連接局域網其他計算機 Host-only:與主機 Ctrl+ALt+F2 切換到DOS頁面這裏輸入密碼的時候我開始輸入了2遍還輸

2020-07-06 02:59:52

linux 學習筆記 # 1

目錄 Linux 常用命令 1. 幫助命令 2. 文件管理 3. 權限管理 4. 查找文件 5. 查看文件內容 6. 壓縮與解壓文件 VIM 的常用命令 1. 移動光標的方法 2. 查找與替換 3. 刪除、複製與粘貼 4. 移動光標的方法

2020-07-05 20:35:41

gcc 的使用 # 1

gcc 的常用參數 # 編譯時指定所用的頭文件目錄 -I # 編譯和彙編, 得到一個.o文件 (不鏈接) -c # gdb debug 版本 -g # 在編譯時指定一個宏 -D # 指定生成二進制文件名 (包括鏈接) -o # 添

2020-07-05 20:35:41

su root 與 su - root 的區別

su - root 是切換到root賬號使用，使用的是root用戶的環境變量；su root 則是取得root的特權，以root的身份執行程序，但保留原來用戶環境。說明：有些命令即使你使用su root切換到root用戶，仍無法

2020-07-03 02:00:13

【Linux VI】實用總結

刪除行首和行尾的空格 %s/^\+\s//%s/\s\+$//

2020-07-03 00:46:47

Linux系統中swap原理

在linux系統中，啓動一個程序，它佔用的內存假設是1G，但是運行一段時間後，使用top查看進行信息，你會發現它的內存只剩幾十兆了，這是因爲內存不足，它的內存被swap走了。若開啓了swap，則系統會有一個交換空間在硬盤裏，你的內存數據正

大人的涂鸦丶

2020-07-02 23:04:43

pip install 下載特別慢解決

//加上清華大學的鏡像進行下載，速度很快 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow //安裝特定版本，被坑了好多次，這次長記性了 pip

没有价值的生命

2020-06-30 14:54:21

Linux 截屏

如果只需要獲取一張屏幕截圖，不對其進行編輯的話，那麼鍵盤的默認快捷鍵就可以滿足要求了。而且不僅僅是 Ubuntu ，絕大部分的 Linux 發行版和桌面環境都支持以下這些快捷鍵： PrtSc – 獲取整個屏幕的截圖並保存到 Pi

2020-06-26 02:18:53

Ubuntu上完美運行QQ、微信

QQ 2019年Linux上 QQ最完美解決方案（多Linux發行版通過測試並穩定運行）兼容發行版：Ubuntu 16.04-18.10、LinuxMint 18.*-19、elementaryOS 5.0、ZorinOS 12

2020-06-26 02:18:53

Ubuntu 安裝codeblocks包順序

codeblock的安裝包比較多，而且每個包之間的安裝順序不同，胡來的話就會安裝不上 1,sudo gdebi libcodeblocks 2,sudo gdebi libwxsmithlib0_17.12-1_amd64.deb

2020-06-26 02:18:53

24小時熱門文章

最新文章

最新評論文章