使用Hadoop自帶的例子wordcount實現詞頻統計

原創

godadream

2018-08-23 13:06

Hadoop中自帶的hadoop-mapreduce-examples-2.7.6.jar含有一些事例，本文將用wordcount實現詞頻統計。具體步驟如下：

1. 啓動Hadoop

切換到Hadoop安裝目錄下的sbin目錄下執行./start-all.sh命令

或執行./start-dfs.sh和./start-yarn.sh兩條命令

2. 在集羣中創建目錄inputdata_w

hdfs dfs -mkdir /inputdata_w

3. 將Hadoop安裝目錄下的LICENSE.txt、README.txt、NOTICE.txt文件上傳到集羣

hdfs dfs -put ../LICENSE.txt /inputdata_w

hdfs dfs -put ../README.txt /inputdata_w

hdfs dfs -put ../NOTICE.txt /inputdata_w

4. 使用hadoop-mapreduce-examples-2.7.6.jar對上傳的數據進行詞頻統計

hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /inputdata_w

/output/wordcountout01

5. 查看統計結果

hdfs dfs -cat /output/wordcountout01/part-r-00000

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

「遊記」2024 吉林省賽和 2024 東北四省賽

Before 本文是 \(2024\) 中國大學生程序設計競賽全國邀請賽（長春）暨第 \(17\) 屆吉林省大學生設計競賽和新建比賽的遊記寫的很爛寫的很爛寫的很爛 Day0 省賽報到及熱身賽。 \(14：00\) 前報到。 \(12：

yu__xuan

2024-05-18 14:35:35

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

一、前言在使用yolo做人工智能運算後，運算結果除了一個方框，還可能需要增加文字顯示在對應方框上，以便標記是何種物體，比如顯示是人還是動物，或者還有可能追蹤人員，顯示該人員的姓名。這種應用場景非常普遍，而且非常有必要，可以非常直觀的直接看

飛揚青雲

2024-05-18 14:35:25

WPS技巧——MARK住

一、如何對一列數據進行相同操作，比如全都添加雙引號 https://www.jiachong.com/wps/340708.html 1.首先打開表格,按Ctrl+C複製第一個單元格內容, 2.然後把複製的單元格內容按Ctrl+V粘貼到與其

Danlis

2024-05-18 14:34:35

LightDB通過金融信創生態實驗室測試

　　恆生電子LightDB順利通過了金融信創生態實驗室的產品測試，本次測試基於典型金融業務場景並在國產硬件環境中進行，經過測試，LightDB在產品性能、功能性、兼容性以及可靠性等多個維度100%符合金融業務系統，表現優異。　　在本

zhjh256

2024-05-18 14:32:25

國產數據庫金融行業實踐者：LightDB通過強制性國家標準GB18030-2022最高級別認證

　　8月1日，強制性國家標準GB 18030-2022《信息技術中文編碼字符集》實施。10月09日，恆生電子LightDB正式通過中國電子技術標準化研究院強制性國家標準GB18030-2022《信息技術中文編碼字符集》最高級（實現級別

zhjh256

2024-05-18 14:32:25

記一次asp.net 8 服務器爆滿的解決過程

1.描述一下服務器配置: 一臺2c4g的centos,做api接口反代一臺8c16g的windows 2019 作爲實際服務器,跑了iis,sql server,mongodb,redis 2.業務描述 2.0 服務器分爲兩個站

啓天

2024-05-18 14:26:04

一次nginx文件打開數的問題排查處理

現象：nginx域名配置合併之後，發現consul-template無法完成nginx重載，然後發現需要重啓nginx，才能讓配置生效。注意：下次哪個服務有報錯，就看重啓時所有日誌輸出，各種情況日誌輸出。不要忽略細節。很多時候其實已經

馬昌偉

2024-05-18 14:17:33

docker 運行minio standalone模式

sudo docker run -it -d --name minio_latest -p 9000:9000 -p 9001:9001 -v /minio/data:/data -e MINIO_ROOT_USER="賬號" -e MIN

菊花茶

2024-05-18 14:15:13

HTML 09 - Quotations

Quotations in HTML allow you to include and format quoted text within your web content. HTML provides tags such as <bl

emanlee

2024-05-18 14:14:12

HTML 10 - Comments

HTML Comments are used to comment in HTML codes, so the developer can understand the purpose of that code section and it

emanlee

2024-05-18 14:14:12

Nginx R31 doc 官方文檔-01-nginx 如何安裝

從 Ubuntu 存儲庫安裝預構建的 Ubuntu 包更新 Ubuntu 存儲庫信息： sudo apt-get update 安裝包： sudo apt-get install nginx 驗證安裝： sudo ngin

葉止水

2024-05-18 14:01:41

Android 15 的新功能與適配

前臺服務變化前臺服務一直是比較損耗電池壽命的操作，在 Android 15 Beta 2 裏，**dataSync 和 mediaProcessing 的前臺服務類型現在有大約 6 小時的超時時間**，之後系統將調用 Android 15

petercao

2024-05-18 14:00:31

高薪線下週末班馬上開班，手把手帶你提升職業技能

管理學大師彼得·德魯克說“終身學習是現在社會的生存法則”，而現實中，很少有人能清醒地意識到這一點，人們總是習慣在舒適區兜圈，重複做已經掌握的事情，對真正需要突破的職業困境視而不見。偶爾看到同事跳槽漲薪，技術越來越嫺熟，自己也期望着可以跟他

霍格沃茲測試學院

2024-05-18 13:54:11

提升團隊生產力：2024年必知的一體化協同辦公平臺

本文介紹的主流一體化協同辦公平臺有：Worktile、PingCode、Microsoft Teams、釘釘、Google Workspace、Jive、Avaya、Bitrix24、Asana、ClickUp、飛書。在現代工作環

Worktile

2024-05-18 13:54:00

Mono 支持LoongArch架構

近期，著名的.NET開源社區Mono正式支持LoongArch（龍架構），目前LoongArch64架構已出現在.NET社區主幹分支上。詳細內容可以跟蹤 https://github.com/mono/mono/issues/21381,

張善友

2024-05-18 13:53:40

24小時熱門文章

使用Hadoop自帶的例子wordcount實現詞頻統計

VMware14.1 Ubuntu16.04設置xshell連接虛擬機

網絡協議及IP地址分類

Ubuntu16.04 SSH 免密登錄

將聯網方式更改爲橋接模式

Ubuntu16.04安裝JDK1.8

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結