原创 java:阿里巴巴Java開發手冊中的DO、DTO、BO、AO、VO、POJO定義
分層領域模型規約: DO( Data Object):與數據庫表結構一一對應,通過DAO層向上傳輸數據源對象。 DTO( Data Transfer Object):數據傳輸對象,Service或Manager向外傳輸的對象。 BO( B
原创 Spark:持久化存儲等級選取策略 /persist() / cache() /Storage Level
那麼我們應該如何選取持久化的存儲級別呢? 實際上存儲級別的選取就是Memory與CPU之間的雙重權衡,可以參考下述內容: (1)如果RDD的數據量對於集羣內存容量壓力較小,可以很好地兼容默認存儲級別(MEMORY ONLY),那麼優先使用
原创 Spark:RDD checkpoint容錯機制
經過上一節的學習,我們瞭解到合理地將RDD持久化/緩存,不僅直接避免了RDD的重複計算導致的資源浪費和佔用還提升了RDD的容錯性,而且間接提升了分析任務的完成效率,那麼爲什麼又會需要基於checkpoint的容錯機制,在什麼情況下需要
原创 Spark:對於提交命令的理解
如何使用spark-submit將打包好的jar提交到Spark上運行? 打開終端,在終端中輸入spark-submit --help, 可以查看spark-submit的詳細幫助。 下面說一下 spark-submit 的詳細幫助。
原创 scala:佔位符的使用
在上面的實例中,用到了Scala佔位符(_),若讀者對Scala佔位符還不甚瞭解,可以參考學習以下七個Scala佔位符的常見用法: (1)import導入包的所有成員,相當於Java的*,如importscala.math._。比Java
原创 spark:sparkstreaming 0.10版本 從 kafka 採集數據,並存儲到 Hbase Demo示例
pom: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt
原创 spark:sparkstreaming 0.08版本 從 kafka 採集數據,並調用HTTP接口傳參
pom: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt
原创 spark:RDD和DataFrame和DataSet三者間的區別
RDD vs DataFrames vs DataSet 在SparkSQL中Spark爲我們提供了兩個新的抽象,分別是DataFrame和DataSet。他們和RDD有什麼區別呢?首先從版本的產生上來看: RDD (Spark1.0)
原创 sql:hive:mysql:group by與distinct 去重
mysql: 源數據(mysql) id userid subject score 1 001 語文 90.0 2 001 數學 92.0 3 001 英語 80.0 4 002 語文 88.0 5 002 數學 9
原创 scala:箭頭總結
在Scala中有如下3種箭頭(其實可以更多) -> <- => 自定義符號 1. -> 創建map時使用,表示映射 val score = Map("小明" -> 50, "小紅" -> 60) 字符串"小明"映射成50,"小紅"映射成
原创 工具:dbvisualizer:通過導入數據庫文件批量導入數據
執行sql文件: 直接打開這個file: 導入csv數據: 1.表-右鍵-inport table data 2. 3. 4. 5. 6. 導入成功:
原创 sql:hive:函數:udf函數中使用case when
val anDF: DataFrame = spark.sql( s""" |select |name cn,UDFtest('10003',(case when status='A' the
原创 java:util:MapUtil
import java.util.*; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java
原创 java:util:HttpUtil
import com.alibaba.fastjson.JSON; import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory;
原创 圖數據庫:neo4j:java測試連接util
簡單util: package com.neo4j; import com.google.gson.Gson; import org.junit.AfterClass; import org.junit.BeforeClass; i