Spark API編程動手實戰-06-對搜狗日誌文件深入實戰操作

原創

2020-06-22 09:26

本節中所用到的內容是來自搜狗實驗室，網址爲：http://www.sogou.com/labs/dl/q.html

我們使用的是迷你版本的tar.gz格式的文件，其大小爲87K，下載後如下所示：

上傳到服務器後，解壓並查看：

查看Sogou文件內容：

該文件的格式如下所示：

訪問時間 \t 用戶ID \t 查詢詞 \t 該URL在返回結果中的排名 \ t用戶點擊的順序號 \t 用戶點擊的URL

把解壓後的文件上傳到hdfs的data目錄下：

查看web控制檯：

大功告成，文件上傳hdfs成功

接下來我們使用Spark獲得搜索結果排名第一同時點擊結果排名也是第一的數據量，也就是第四列值爲1同時第五列的值也爲1的總共的記錄的個數。

先讀取SogouQ.mini文件：

count操作後：

count之後有2000條記錄

首先過濾出有效的數據：

可以發現該文件中的數據都是有效數據。

下面使用spark獲得搜索結果排名第一同時點擊結果排名也是第一的數據量：

可以發現搜索結果排名第一同時點擊結果排名也是第一的數據量爲794條；

使用toDebugString查看一下其lineage：

HadoopRDD->MappedRDD->MappedRDD->FilteredRDD->FilteredRDD->FilteredRDD

下面看用戶ID查詢次數排行榜：

對sortedSogouQRdd進行collect操作：（不要亂collect 會出現OOM的）

結果：

把結果保存在hdfs上：

hdfs命令行查詢：

part-0000：

part-00001：

web控制檯查詢：

我們通過hadoop命令把上述兩個文件的內容合併起來：

查看一下合併後的本地文件：

使用head命令查看其具體內容：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

構建無服務器數倉（三）EMR Serverless 操作要點、優化以及開放集成測試

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

企業大模型如何成爲自己數據的“百科全書”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

Sql Server數據庫sql語句去除所有空格

空格包含一般空格和特殊空格。 1、一般空格前後的空格，使用LTRIM()和RTRIM()即可，例如：LTRIM(RTRIM(name)) 中間的空格，使用REPLACE()函數替換，例如：REPLACE(name,' ','') 2、特殊

2024-05-08 23:32:56

Apache DolphinScheduler 4月簡報：社區發展與技術革新速遞

各位熱愛 DolphinScheduler 的小夥伴們，4 月份的 DolphinScheduler 社區月報更新啦！這裏將記錄 DolphinScheduler 社區每月的重要更新，歡迎關注！月度 Merge 之星感謝以下小夥伴 4

2024-05-08 21:19:32

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

hadoop-2單節點和hive安裝

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

DolphinScheduler 3.3.0版本更新一覽

Apache DolphinScheduler即將迎來3.3.0版本的發佈，屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上，項目PMC 阮文俊爲大家介紹了3.3.0版本將帶來的主要更新和改進，併爲大家指出瞭如何參與社區的

2024-05-23 21:22:09

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

HBase Meta 元信息表修復實踐

作者：vivo 互聯網大數據團隊 - Huang Guihu、Chen Shengzun HBase是一款開源高可靠、高可擴展性、高性能的分佈式非關係型數據庫，廣泛應用於大數據處理、實時計算、數據存儲和檢索等領域。在分佈式集羣中，硬件故

2024-05-09 12:43:33

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

24小時熱門文章

最新文章

最新評論文章