原创 RDD算子練習

RDD算子練習 文件格式:TS province city userid adid ​ 時間戳 省份 城市 用戶 廣告 需求: 統計每一個省點擊的TOP3的廣告 package com.atguigu.pratice

原创 RDD中的函數傳遞(序列化問題)

RDD中的函數傳遞(序列化問題) 在實際開發中我們往往需要自己定義一些對於RDD的操作,那麼此時需要主要的是,初始化工作是在Driver端進行的,而實際運行程序是在Executor端進行的,這就涉及到了跨進程通信,是需要序列化的。

原创 RDD行動算子

RDD行動算子 2.4.1 reduce(func)案例 作用:通過func函數聚集RDD中的所有元素,先聚合分區內數據,再聚合分區間數據。 需求:創建一個RDD,將所有元素聚合得到結果。 (1)創建一個RDD[Int] sc

原创 第5章 RDD編程進階

第5章 RDD編程進階 5.1 累加器 累加器用來對信息進行聚合,通常在向 Spark 傳遞函數時,比如使用 map() 函數或者用 filter() 傳條件時,可以使用驅 動器程序中定義的變量,但是集羣中運行的每個任務都會得到這

原创 reducByKey總結

reducByKey總結 在進行Spark開發算法時,最有用的一個函數就是reduceByKey。 reduceByKey的作用對像是(key, value)形式的rdd,而reduce有減少、壓縮之意,reduceByKey的作

原创 多線程基礎四 線程通信

package com.bupt.exer; /** * 通信樣例,兩個線程交替打印1-100的數字 *涉及到的方法 * wait(),一旦執行此方法,當前線程就會進入阻塞狀態,並釋放同步監視器 * notify(),一

原创 多線程基礎五: 線程池創建多線程

package com.bupt.ThreadPoolDemo; /** * 創建線程方式四:線程池 * 好處: * 1、提高響應速度,減少了創建新線程的時間 * 2、降低資源消耗,重複利用線程池中的線程,不需要每次都創建

原创 RDD實戰電影點評系統案例

下面的案例中使用的是用戶觀看電影和點評電影的行爲數據,數據來源與網絡上的公開數據共有三個數據文件。 users.dat UserID::Gender::Age::Occupation::Zip-code ratings.dat

原创 spark寫入Hbase

方式一: package com.bupt.spark.hbase //1 table put import org.apache.hadoop.conf.Configuration import org.apache.hadoo

原创 spark讀取Hbase

方式一 package com.bupt.spark.hbase.readhbase import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.had

原创 305.網絡的核

#include <bits/stdc++.h> using namespace std; const int maxn = 110; const int inf = 0x3f3f3f3f; int mp[maxn][maxn]; i

原创 2019-北郵複試機試

1、給定a,b,c,d四個數,找其中最小。 2、給定n,m 。判斷n,m之間閏年個數。 3、鏈表操作,刪除,轉置,查詢。數組模擬或vector 即可 4、裸的最小生成樹。圖都不用你建。 今年不準帶資料,可能導致題型偏簡單,4a不少。未來的

原创 數據結構實驗之棧與隊列九:行編輯器

數據結構實驗之棧與隊列九:行編輯器 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Problem Description  一個簡單的行編輯程序的功能是:接受用戶

原创 傳紙條

傳紙條 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Problem Description 傳紙條是一種在課堂上傳遞信息的老方法,雖然現在手機短信和QQ聊天越來

原创 311.圖像識別

#include <bits/stdc++.h> using namespace std; const int maxn = 110; int mp[maxn][maxn]; int vis[maxn][maxn]; int dx[8