原创 sqoop從greenplum到數據到hive中

關於sqoop原理詳見官文,這裏都不做介紹,此處就記錄用sqoop把greenplum數據導到hive中的方法和我測試時候遇到的問題; 一:sqoop的解壓安裝後,配置sqoop-env.sh配置文件 二:把鏈接數據庫的mysql-co

原创 sparkmlib使用Pipeline實現簡單的邏輯迴歸

MLib 機器學習算法的標準API可以很方便的把多個算法整合到一個pipeline中,並可以把整個過程形象的比如機器學習算法流; Pipeline包括三個階段: 第一階段:Tokenier會把每個一個文件分成word 第二階段:把wor

原创 Cannot instantiate user function.

Caused by: org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot instantiate user function.     at org.a

原创 FlinkSql 讀取kafka sink到mysql 案例

public static void main(String[] args) { StreamExecutionEnvironment bsEnv = StreamExecutionEnvironment.getE

原创 線性迴歸原理和實現基本認識

一:介紹        定義:線性迴歸在假設特證滿足線性關係,根據給定的訓練數據訓練一個模型,並用此模型進行預測。爲了瞭解這個定義,我們先舉個簡單的例子;我們假設一個線性方程 Y=2x+1, x變量爲商品的大小,y代表爲銷售量;當月份x

原创 數據結構重習之1-數據邏輯結構和數據的存儲結構

數據的邏輯結構:簡單的來說就是指數據對象中各數據之間的相互關係。這個概念不是很難理解。比如把數據對象比作一個家庭,把邏輯關係就是家庭成員的之間的關係,如夫妻、父子等邏輯關係。 在數據結構中,數據的邏輯關係比較稍微複雜一點,其關係有四個:

原创 神經網絡分類算法 數據挖掘

神經網絡分類介紹:       神經網絡就是一組相互連接的輸入輸出單元,這些單元之間的每個連接都關聯一個權重。在網絡學習階段,網絡通過調整權重來實現輸入樣本與其相應(正確)類別的對應。由於神經網絡學習主要是針對其中的連接權重進行的,因此神