原创 java:阿里巴巴Java開發手冊中的DO、DTO、BO、AO、VO、POJO定義

分層領域模型規約: DO( Data Object):與數據庫表結構一一對應,通過DAO層向上傳輸數據源對象。 DTO( Data Transfer Object):數據傳輸對象,Service或Manager向外傳輸的對象。 BO( B

原创 Spark:持久化存儲等級選取策略 /persist() / cache() /Storage Level

那麼我們應該如何選取持久化的存儲級別呢? 實際上存儲級別的選取就是Memory與CPU之間的雙重權衡,可以參考下述內容: (1)如果RDD的數據量對於集羣內存容量壓力較小,可以很好地兼容默認存儲級別(MEMORY ONLY),那麼優先使用

原创 Spark:RDD checkpoint容錯機制

  經過上一節的學習,我們瞭解到合理地將RDD持久化/緩存,不僅直接避免了RDD的重複計算導致的資源浪費和佔用還提升了RDD的容錯性,而且間接提升了分析任務的完成效率,那麼爲什麼又會需要基於checkpoint的容錯機制,在什麼情況下需要

原创 Spark:對於提交命令的理解

如何使用spark-submit將打包好的jar提交到Spark上運行? 打開終端,在終端中輸入spark-submit  --help, 可以查看spark-submit的詳細幫助。 下面說一下 spark-submit  的詳細幫助。

原创 scala:佔位符的使用

在上面的實例中,用到了Scala佔位符(_),若讀者對Scala佔位符還不甚瞭解,可以參考學習以下七個Scala佔位符的常見用法: (1)import導入包的所有成員,相當於Java的*,如importscala.math._。比Java

原创 spark:sparkstreaming 0.10版本 從 kafka 採集數據,並存儲到 Hbase Demo示例

pom: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

原创 spark:sparkstreaming 0.08版本 從 kafka 採集數據,並調用HTTP接口傳參

pom: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

原创 spark:RDD和DataFrame和DataSet三者間的區別

RDD vs DataFrames vs DataSet 在SparkSQL中Spark爲我們提供了兩個新的抽象,分別是DataFrame和DataSet。他們和RDD有什麼區別呢?首先從版本的產生上來看: RDD (Spark1.0)

原创 sql:hive:mysql:group by與distinct 去重

mysql: 源數據(mysql)  id userid subject score 1 001 語文 90.0 2 001 數學 92.0 3 001 英語 80.0 4 002 語文 88.0 5 002 數學 9

原创 scala:箭頭總結

在Scala中有如下3種箭頭(其實可以更多) -> <- => 自定義符號 1. -> 創建map時使用,表示映射 val score = Map("小明" -> 50, "小紅" -> 60) 字符串"小明"映射成50,"小紅"映射成

原创 工具:dbvisualizer:通過導入數據庫文件批量導入數據

執行sql文件: 直接打開這個file:   導入csv數據: 1.表-右鍵-inport table data 2.   3. 4.    5. 6.   導入成功:  

原创 sql:hive:函數:udf函數中使用case when

val anDF: DataFrame = spark.sql(       s"""         |select         |name cn,UDFtest('10003',(case when status='A' the

原创 java:util:MapUtil

import java.util.*; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java

原创 java:util:HttpUtil

import com.alibaba.fastjson.JSON; import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory;

原创 圖數據庫:neo4j:java測試連接util

簡單util:  package com.neo4j; import com.google.gson.Gson; import org.junit.AfterClass; import org.junit.BeforeClass; i