Leetcode: Word Frequency (shell , awk)

原創

2020-06-30 14:20

單詞統計。仍然先貼代碼，再講我的思路：

# Read from the file words.txt and output the word frequency list to stdout.

#!/bin/bash

awk '
BEGIN{

while(getline < "words.txt") {
        for(i=1;i<=NF;i++) {
                freq[$i]++;
        }
}

n = asort(freq, dest);
for(word in freq) {
        reversefreq[freq[word]] = word;
}

for (j=n;j>=1;j--) {
        print reversefreq[dest[j]]" "dest[j];
}

}'

一、awk數組可以是按字符串取值，當然就想到用它，但是在其value遞增時，要不要先初始化爲0呢？另外，在判斷第一個word在不在array的index裏之前，是否需要聲明array呢？awk數組不需要聲明，且對value可以直接進行遞增操作。awk數組是我見過的最強大的數組。

二、按空格分割用到簡單的正則表達式，分隔符爲一個或多個空格，則正則表達式就是：

" +"

所有的正則表達式規則都一樣，Java的split函數，其參數也是可以用正則表達式的，例如：

String[] ssplit = s.split(" +");

也是分割一個或多個空格。不過awk使用$i取每一列的值時，已經有這樣的能力，不用再用正則表達式了。

三、asort()函數會破壞原數組的index，所以我們將排序放到dest數組上去。dest數組保存着freq數組的由小到大的value，這時候我們將freq數組的key和value互換，得到reversefreq數組。這樣，我們就能按照freq數組，取出相應的word了！這就是爲什麼題目裏有這麼一句：Don’t worry about handling ties, it is guaranteed that each word’s frequency count is unique.

總之，awk數組是我用過的最好用的數組了！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

docker（podman）容器設置中文環境

容器系統使用 Debian12 爲例安裝中文環境 apt -y update && apt -y upgrade apt install -y locales 生成中文環境 echo "zh_CN.UTF-8 UTF-8" >> /et

2024-05-21 22:32:08

linux加載動態庫失敗

一般我們在Linux下執行某些外部程序的時候可能會提示找不到共享庫的錯誤, 比如: tmux: error while loading shared libraries: libevent-1.4.so.2: cannot open sha

2024-05-21 00:52:55

Docker 使用 CentOS 鏡像

使用 docker run 直接運行 CentOS 7 鏡像，並登錄 bash。 C:\Users\yhu>docker run -it centos:centos7 bash Unable to find image 'c

2024-05-15 11:11:36

利用pyinstaller打包Python程序爲一個可執行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

k3d創建集羣並暴露traefik端口

1. 安裝docker curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun 2. 安裝k3d wget -q -O - https://raw.githu

2024-04-24 21:13:26

Centos清空歷史命令

在Linux（centos）中，在終端中運行的所有命令都會存儲在主目錄中名爲 .bash_history 的文本文件中。這個時候可以通過使用 history 命令來顯示系統自您啓動會話以來輸入的所有命令的列表。出於某種原因，有時候想要從Li

2024-04-16 21:52:56

中間件漏洞攻防學習總結

前言面試常問的一些中間件，學習總結一下。以下環境分別使用vulhub和vulfocus復現。 Apache apache 文件上傳 (CVE-2017-15715) 描述: Apache(音譯爲阿帕奇)是世界使用排名第一的Web服務器

2024-04-09 22:46:34

Linux系統用戶登錄時的環境加載順序

Linux系統中有時會遇到一些登陸初始化故障，會阻止用戶進入系統（比如ETX無法打開桌面）或者導致某些工具運行失敗（LSF bsub任務是無法完成初始化），所以瞭解Linux系統用戶登錄時的環境加載順序，對debug和解決如上問題是很有幫助

2024-04-07 23:52:25

知名壓縮軟件 xz 被植入後門，黑客究竟是如何做到的？

昨天，Andres Freund 通過電子郵件告知 oss-security@ 社區，他在 xz/liblzma 中發現了一個隱藏得非常巧妙的後門，這個後門甚至影響到了 OpenSSH 服務器的安全。Andres 能夠發現並深入調查這個問題

2024-04-02 21:14:35

aws 零停機部署腳本

腳本 #!/bin/bash logdir="/var/log/deploy" logfile="$logdir/qa.log" if [ ! -d "$logdir" ]; then mkdir $logdir fi target

2023-10-26 23:09:28

linux文件批量更新名稱

linux文件批量更新名稱腳本示例更新已{uuid}_xxx.*的文件名爲{uuid}.* #!/bin/bash UPLOAD_DIR=/data/amsfiles/upload/ LOG_FILE=log_$(date +%Y%m%

2023-10-07 13:42:09

Node.js 20 —— 幾個令人大開眼界的特性

前言：歡迎來到 Node.js 20 Node.js 20 已經發布，帶來了創新和激動人心的新時代。這個開創性的版本於2023年4月18日首次亮相，並將在2023年10月發佈長期支持（LTS）版本，並且將持續支持至2026年4月，下面小編就

2023-09-20 22:50:54

如何清理並刷新 DNS

[toc] 在互聯網上的每一個計算機都擁有一個唯一的地址，稱作「IP地址」（即互聯網協議地址），其中： IPv4 使用 32位地址，採用點分十進制（dotted-decimal）表示法，例如 192.168.0.1。 IPv6 使用128

2023-07-26 01:40:18

centos安裝nodejs,nginx

# yum安裝Nginx #添加Nginx 源 rpm -Uvh http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch.

2023-07-17 10:35:29

Webviz本地構建

安裝環境依賴 sudo apt-get update sudo apt-get install build-essential libssl-dev 安裝Node版本管理工具NVM curl -o- https://raw.githubu

2023-07-14 00:15:04

24小時熱門文章

最新文章

最新評論文章