原创 RDD算子練習
RDD算子練習 文件格式:TS province city userid adid 時間戳 省份 城市 用戶 廣告 需求: 統計每一個省點擊的TOP3的廣告 package com.atguigu.pratice
原创 RDD中的函數傳遞(序列化問題)
RDD中的函數傳遞(序列化問題) 在實際開發中我們往往需要自己定義一些對於RDD的操作,那麼此時需要主要的是,初始化工作是在Driver端進行的,而實際運行程序是在Executor端進行的,這就涉及到了跨進程通信,是需要序列化的。
原创 RDD行動算子
RDD行動算子 2.4.1 reduce(func)案例 作用:通過func函數聚集RDD中的所有元素,先聚合分區內數據,再聚合分區間數據。 需求:創建一個RDD,將所有元素聚合得到結果。 (1)創建一個RDD[Int] sc
原创 第5章 RDD編程進階
第5章 RDD編程進階 5.1 累加器 累加器用來對信息進行聚合,通常在向 Spark 傳遞函數時,比如使用 map() 函數或者用 filter() 傳條件時,可以使用驅 動器程序中定義的變量,但是集羣中運行的每個任務都會得到這
原创 reducByKey總結
reducByKey總結 在進行Spark開發算法時,最有用的一個函數就是reduceByKey。 reduceByKey的作用對像是(key, value)形式的rdd,而reduce有減少、壓縮之意,reduceByKey的作
原创 多線程基礎四 線程通信
package com.bupt.exer; /** * 通信樣例,兩個線程交替打印1-100的數字 *涉及到的方法 * wait(),一旦執行此方法,當前線程就會進入阻塞狀態,並釋放同步監視器 * notify(),一
原创 多線程基礎五: 線程池創建多線程
package com.bupt.ThreadPoolDemo; /** * 創建線程方式四:線程池 * 好處: * 1、提高響應速度,減少了創建新線程的時間 * 2、降低資源消耗,重複利用線程池中的線程,不需要每次都創建
原创 RDD實戰電影點評系統案例
下面的案例中使用的是用戶觀看電影和點評電影的行爲數據,數據來源與網絡上的公開數據共有三個數據文件。 users.dat UserID::Gender::Age::Occupation::Zip-code ratings.dat
原创 spark寫入Hbase
方式一: package com.bupt.spark.hbase //1 table put import org.apache.hadoop.conf.Configuration import org.apache.hadoo
原创 spark讀取Hbase
方式一 package com.bupt.spark.hbase.readhbase import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.had
原创 305.網絡的核
#include <bits/stdc++.h> using namespace std; const int maxn = 110; const int inf = 0x3f3f3f3f; int mp[maxn][maxn]; i
原创 2019-北郵複試機試
1、給定a,b,c,d四個數,找其中最小。 2、給定n,m 。判斷n,m之間閏年個數。 3、鏈表操作,刪除,轉置,查詢。數組模擬或vector 即可 4、裸的最小生成樹。圖都不用你建。 今年不準帶資料,可能導致題型偏簡單,4a不少。未來的
原创 數據結構實驗之棧與隊列九:行編輯器
數據結構實驗之棧與隊列九:行編輯器 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Problem Description 一個簡單的行編輯程序的功能是:接受用戶
原创 傳紙條
傳紙條 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Problem Description 傳紙條是一種在課堂上傳遞信息的老方法,雖然現在手機短信和QQ聊天越來
原创 311.圖像識別
#include <bits/stdc++.h> using namespace std; const int maxn = 110; int mp[maxn][maxn]; int vis[maxn][maxn]; int dx[8