SparkCore 流量統計

原創

2020-06-15 01:13

package com.xzdream.spark

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Log App
  */
object SparkContextApp {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf();
    sparkConf.setAppName("LogApp").setMaster("local[2]");

    val sc = new SparkContext(sparkConf);

    val lines = sc.textFile("file:///Users/hadoop/scala/spark_demo1/src/main/logs/2020-5-11.log");
//    lines.take(3).foreach(println)

    /*
    //讀取每一行數據
    lines.map(x => {
      val splits = x.split("\t")
      val length = splits.length
      if(length == 4){
        val domain = splits(0)
        var traffic = 0L
        try{
          traffic = splits(1).toLong
        }catch {
          case e:Exception => 0L
        }

        (domain,traffic)
      }else{
        ("-",0L)
      }

    }).reduceByKey(_+_).collect.foreach(println)
     */

    //求省份訪問量的top10

    lines.map(x=>{
      val splits = x.split("\t")
      val length = splits.length
      if(length == 4){
        val province = splits(3)
        (province,1)
      }else{
        ('-',1)
      }
    }).reduceByKey(_+_).sortBy(_._2,false).take(10).foreach(println)


    sc.stop();
  }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Excel複合圖表的使用

複合圖表亦稱“複式條形圖”。以兩個或兩個以上的條形爲一組代表一個大項目,用每組中的各個條......個同類指標在不同地點、條件下的變動，表明事物之間的差異其實就把兩張圖表組合到一起，用對比的思維看問題首先建立一個數據表格，如何把數據累

2020-07-08 05:25:47

Excel輔助列的使用方法案例

輔助列的使用，輔助列就是輔助統計及分析的一列數據，它能讓數據統計與分析變得更加的簡單快捷，提高我們的工作效率，有時候輔助列能將非常複雜的問題變得非常的簡單，善用輔助列能一定程度的提高我們的工作效率，下面就讓我們用2個例子來看輔助列的常見的

2020-07-08 05:25:47

阿里雲 MaxCompute 2020-12 月刊

【12月新發布功能】 1、MaxCompute 查詢編輯器支持查詢加速提升數據分析能力 MaxCompute 數據分析支持查詢加速，當分析師通過SQL查詢數據時，速度可提升至秒級，爲數據分析師提供更優的數據分析體驗。適用客戶及場景數據分

2021-01-05 14:43:48

阿里雲 MaxCompute 2020-11 月刊

【11月新功能發佈】1、MaxCompute支持以RAM角色身份訪問使用服務在雲賬號、RAM用戶基礎上，支持以RAM角色身份訪問服務，滿足跨雲服務的安全數據交換以及與企業已有身份系統實現SSO對接訪問需求。適用客戶已自建身份系統需要以R

2020-12-03 09:55:49

阿里雲 MaxCompute 2020-9 月刊

【9月新功能發佈】 1. MaxCompute作業監控診斷工具Logview功能升級發佈此次Logview功能升級，擴展了MaxCompute作業的監控指標，提供作業回放功能，新增Fuxi Sensor支持查看作業內存及CPU使用。適用

2020-10-10 10:31:48

物聯網和人工智能在疫苗研發中的作用

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！出於顯而易見的原因，研發疫苗是人們目前的首要考慮目標。尋找安全有效的冠狀病毒疫苗是成千上萬甚至數百萬人的生命以及全球經濟健康的基礎。在疫

雲棲號資訊小哥

2020-08-03 14:07:50

適合 Python 入門的 8 款強大工具！

Python是一種開源的編程語言，可用於Web編程、數據科學、人工智能以及許多科學應用。學習Python可以讓程序員專注於解決問題，而不是語法。由於Python相對較小，且擁有各式各樣的工具，因此比Java和C++等語言更具優勢，同時豐富的

雲棲號資訊小編

2020-07-27 11:40:52

星辰大海：阿里數據體驗技術揭祕！

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：阿里巴巴數據體驗技術團隊從一開始建立就致力於打造數據領域體驗技術的標杆。經過多年的深耕，形成了一整套面向兩個階段的用戶產品的

雲棲號資訊小編

2020-07-23 13:04:56

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

數學建模之傳染病SIR模型（新冠真實數據）

傳染病模型的基本問題描述傳染病的傳播過程分析受感染人數的變化規律預報傳染病高潮到來的時刻預防傳染病蔓延的手段按照傳播過程的一般規律用機理分析方法建立模型注：我們這裏是介紹數學醫學領域中基本的傳染病模型。不從醫學角度

小白不白nie

2020-07-08 04:34:52

揭祕阿里中臺！一文看懂阿里推薦業務的兩項利器

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！從工程的角度看，搜索和推薦既有差異點，又有共同點。阿里巴巴集團的搜索和推薦系統由同一個部門研發，因此很多工程能力是複用的，如搜索和推薦業務的

雲棲號資訊小編

2020-07-30 14:19:50

RedMonk 2020 年 Q3 編程語言排行：Rust 首次進入前 20

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！知名軟件行業分析公司 RedMonk 發佈了 2020 年 6 月（Q3 季度）編程語言排行榜。 RedMonk 編程語言排行榜通過追蹤編

雲棲號資訊小哥

2020-07-29 13:37:46

LeetCode題解(1365)：有多少小於當前數字的數字(Python)

題目：原題鏈接（簡單）題目1331延伸解法時間複雜度空間複雜度執行用時 Ans 1 (Python) O(NlogN)O(NlogN)O(NlogN) O(N)O(N)O(N) 40ms (96.93%)

2020-07-08 05:30:43

LeetCode題解(1451)：重新排列句子中的單詞(Python)

題目：原題鏈接（中等）解法時間複雜度空間複雜度執行用時 Ans 1 (Python) O(NlogN)O(NlogN)O(NlogN) O(N)O(N)O(N) 52ms (79.32%) Ans 2 (

2020-07-08 05:30:43

【棧】B020_LC_最大寬度坡（排序 / 單調棧）

一、Problem 給定一個整數數組 A，坡是元組 (i, j)，其中 i < j 且 A[i] <= A[j]。這樣的坡的寬度爲 j - i。找出 A 中的坡的最大寬度，如果不存在，返回 0 。輸入：[6,0,8,2,1,

2020-07-08 05:01:10

24小時熱門文章

最新文章

最新評論文章