原创 scala的breakOut的應用

問題:在scala中,List或Set等集合如何轉換爲Map集合? 由List/Set轉換Map集合時,一般情況下,需要對其元素以元組的形式,再通過toMap等函數實現。 利用collections.breakOut的方式可直接由List

原创 TigerGraph圖數據庫的數據加載_GraphStudio方式

Graph Schema創建成功後需要把數據映射到schema中。下面是使用可視化界面GraphStudio將數據映射到Graph Schema中。 點擊左邊的“Map Data To Graph”的“Add data file”: 注

原创 TigerGraph圖數據庫創建一個圖Schema

以開發版的TigerGraph圖數據庫爲例。 若沒有多圖權限的話,若TigerGraph中已經有其他圖數據,則會執行Drop ALL命令。以下是在gsql環境下執行。 第一步:創建Vertex 命令如下:CREATE VERTEX Per

原创 TigerGraph算法庫

把相應的算法實現加載到相應的Graph Schema上。 從相應的地址把TigerGraph圖數據庫實現的算法庫下載下來,最新下載目錄: https://github.com/tigergraph/gsql-graph-algorithm

原创 知識圖譜推理

推理待續。。。。。。

原创 TigerGraph圖數據庫的數據加載_gsql方式

首先使用gsql把數據映射到Graph Schema上: 在gsql shell情況下執行: USE GRAPH Social BEGIN CREATE LOADING JOB load_social FOR GRAPH Social {

原创 強連通體的GraphX的實現和解析

/**連通體*/ object ConnectComponents { /**在圖中若從某個頂點Vp出發,沿着一些邊經過頂點V1,V2,。。。Vm到達Vg則稱頂點序列(Vp,V1,V2....Vm,Vg)爲從Vp到Vg的路徑,其中

原创 spark的broadcast理解

Broadcast(使用BroadcastManager管理)一般用於處理共享配置文件、常用的數據結構等;但Broadcast不適合存放太大數據,Broadcast不會內存溢出,因爲數據保存級別StoreageLevel是MEMORY_A

原创 spark使用insertInto存入hive分區表中

把spark的處理結果存入hive分區表中,可以直接在sql中設定分區即可,可以使用withColumn算子執行 ss.sql("SELECT merchant_id,platform," + "case when

原创 使用foreachPartition將結果寫入外部存儲

好久沒有寫了!!!記錄一下 : 最近有個小夥伴問我,使用spark處理的數據存入mysql中老是導致mysql鏈接超時或中斷,我看了一下他的代碼,想揍人, 其代碼如下: dstream.foreachRDD {rdd => rdd.

原创 事實表設計

1、事實表 事實表一般至保存了大量業務事件的可度量的數據集合,從最低的粒度級別來看,事實錶行對應一個度量事件。 2、事務事實表 3、週期快照事實表 4、累計快照事實表 5、三種事實表的區別

原创 主題分析模型LDA的spark實現

主體分析模型主要有PLSA(Probabilistic Latent Semantic Anlysis,概率引語義分析)和LDA(Latent Dirichlet Allocation,隱含狄利克雷分佈),在此暫時介紹LDA的spark實

原创 spark之TF-IDF淺談

所用或所學知識,忘了搜,搜了忘,還不如在此記下,還能讓其他同志獲知。 在使用spark實現機器學習相關算法過程中,檔語料或者數據集是中文文本時,使用spark實現機器學習相關的算法需要把中文文本轉換成Vector或LabeledPoint

原创 scala之閉包函數淺知

object Closure { /**scala閉包是一種函數:函數內部的變量不在其作用於時,仍然可以從外部進行訪問。 * 定義閉包函數的過程是將函數外部的自由變量捕獲並構成一個封閉的函數。 * 當函數外部的變量發

原创 高可用性的ResourceManager

YARN的架構圖 有圖可知,ResourceManager(RM)對整個集羣的重要就不言而喻了吧。但是由於多種原因可能會造成ResourceManager出現問題,由於單位的集羣ResourceManager也出現問題,今天我分析一下R