簡介
使用linux簡單的命令進行詞頻統計
效果圖
過程
將需要的內容保存至test文件中
cat test
詞頻統計思路
- 使用換行符\n將所有的空格替換
- 去掉標點符號
- sort、uniq進行統計
腳本命令簡單
cat test | tr ' ' '\n' | sed 's/[.,]//g' | sort | uniq -c
Linux命令知識點解釋:
-
sort:
Linux sort命令用於將文本文件內容加以排序。
-
uniq
Linux uniq 命令用於檢查及刪除文本文件中重複出現的行列,一般與 sort 命令結合使用。 參數-c: -c或--count 在每列旁邊顯示該行重複出現的次數。
問題
第一行不知道爲啥是12 個空,經過試驗發現是每個英文段落的首行縮進部分沒有去除。