hadoop本地运行官方Grep案例 wordCount案例

原創

osc_resa95yg

2021-12-25 21:38

环境准备点击此处查看

Grep案例

第一步: 在Hadoop文件夹下

mkdir input

cp etc/hadoop/*.xml input/

hadoop jar share/hadoop/mapreduce//hadoop-mapreduce-examples-2.7.2.jar grep input/ output 'dfs[a-z.]+'

执行完上一句会创建一个output文件夹(里边有两个文件)这个文件夹不能自己创建

输入 cat part-r-00000

输出结果为符合'dfs[a-z.]+'条件的数据

wordCount案例

　　　mkdir wcinput

cd wcinput

　　　touch wc.input(名字随便起)

　　　vim wc.input

　　　　输入一些数据

tianyi huichao lihua
zhangcheng xiaoheng
xinbo xinbo
gaoyang gaoyang gaoyang yanjing yanjing

保存退出

　　　　cd .. 退回上一层

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput/ wcoutput

cd wcoutput

cat part-r-00000

统计出每个单词出现的次数

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive引擎底层初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

原創

2024-04-17 11:18:21

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

原創

2024-02-22 01:13:43

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

原創

2024-03-27 01:22:41

分布式场景怎么Join | 京东云技术团队

背景最近在閱讀查詢優化器的論文，發現System R中對於Join操作的定義一般分爲了兩種，即嵌套循環、排序-合併聯接。在原文中，更傾向使用排序-合併聯接邏輯。考慮到我的領域是在處理分庫分表或者其他的分區模式，這讓我開始不由得聯想我們

原創

2024-02-21 01:10:25

老知识覆盘-SQL从提交到执行到底经历了什么 | 京东云技术团队

一、什麼是SQL sql(Structured Query Language: 結構化查詢語言)是高級的費過程化編程語言,允許用戶在高層數據結構上工作, 是一種數據查詢和程序設計語言, 也是(ANSI)的一項標準的計算機語言. but...

原創

2023-11-22 12:37:34

从零开始学架构V2-初识架构设计-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

原創

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

原創

2024-04-25 21:18:23

2024 开源数据工程生态系统全景图

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

微衆開源

2024-04-23 21:30:36

告别手动调度，海豚调度器 3.1.x 集群部署让你轻松管理多机！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

原創

2024-04-23 21:18:20

入职3年-我如何做一名AI产品经理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

原創

2024-04-22 11:16:31

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

原創

2024-04-15 21:18:44

解密数仓的SQL ON ANYWHERE技术

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

原創

2024-04-03 10:32:41

Apache DolphinScheduler-3.2.0集群部署教程

集羣部署方案(2 Master + 3 Worker) Apache DolphinScheduler官網：https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler

原創

2024-03-11 21:25:56

Apache Linkis 1.3.0 适配华为MRS+Scriptis 实战分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

微衆開源

2024-02-23 21:45:28

AI大模型时代：企业如何构建数据智能基础设施

在AI大模型時代，數據已經成爲企業的重要資產。爲了更好地利用數據，企業需要構建一套高效、穩定、可擴展的數據智能基礎設施。本文將介紹如何構建這樣的基礎設施，並探討其中的關鍵技術和實踐經驗。一、數據採集與整合數據是構建數據智能基礎設施的基礎

原創

2024-02-21 12:33:41

24小時熱門文章

hadoop本地运行官方Grep案例 wordCount案例

Python 爬虫：Spring Boot 反爬虫的成功案例

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

Redhat鏡像-RHEL-官方鏡像下載大全

反應式架構(1)：基本概念介紹

Java修煉——繼承方法之重寫(override)_返回值類型

C#時間戳轉化爲DateTime

2019 ICPC 銀川站

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結