【Linux學習記錄 D:02】——使用tr、sort、uniq命令進行詞頻統計

簡介

使用linux簡單的命令進行詞頻統計

效果圖

在這裏插入圖片描述

過程

將需要的內容保存至test文件中

cat test

在這裏插入圖片描述

詞頻統計思路

  • 使用換行符\n將所有的空格替換
  • 去掉標點符號
  • sort、uniq進行統計

腳本命令簡單

cat test | tr ' ' '\n' | sed 's/[.,]//g' | sort | uniq -c

Linux命令知識點解釋:

  • sort:

     Linux sort命令用於將文本文件內容加以排序。
    
  • uniq

     Linux uniq 命令用於檢查及刪除文本文件中重複出現的行列,一般與 sort 命令結合使用。
     參數-c:
     		-c或--count 在每列旁邊顯示該行重複出現的次數。
    

問題

在這裏插入圖片描述

第一行不知道爲啥是12 個空,經過試驗發現是每個英文段落的首行縮進部分沒有去除。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章