原创 Spark SQL使用簡介(3)--加載和保存數據

加載和存儲數據 val usersDF = spark.read.load("examples/src/main/resources/users.parquet") usersDF.select("name", "favorite_co

原创 機器學習方法簡介(2)--決策樹、隨機森林、樸素貝葉斯

1.決策樹 決策樹是一種用於對實例進行分類的樹形結構。 Hunt算法是一種採用局部最優策略的決策樹構建算法,它同時也是許多決策樹算法的基礎,包括ID3、C4.5和CART等。 Hunt算法的遞歸定義如下:  (1) 如果 中所有記錄都屬於

原创 機器學習基本工作流程

注:此篇博客爲轉載,尊重原創。原文鏈接地址爲:http://blog.csdn.net/longxinchen_ml/article/details/50749614 作者: 龍心塵 && 寒小陽  時間:2016年2月。  出處:htt

原创 紅黑樹

目錄 1.紅黑樹的特徵 2.添加節點 3.刪除節點 1.紅黑樹的特徵 (1)每個節點或者是黑色,或者是紅色。(2)根節點是黑色。(3)每個葉子節點(NIL)是黑色。 [注意:這裏葉子節點,是指爲空(NIL或NULL)的葉子節點!](4)如

原创 機器學習方法簡介(1)--線性迴歸、邏輯迴歸、神經網絡、支持向量機

機器學習方法就是計算機根據已有的數據, 得出某個模型,然後利用此模型預測未來的一種方法。 機器學習的一個主要目的就是把人類思考歸納經驗的過程轉化爲計算機通過對數據的處理計算得出模型的過程。 1.迴歸算法 迴歸算法包括線性迴歸和邏輯迴歸 線

原创 Hive嚴格模式

Hive提供了一個嚴格模式,用如下方式設置: hive> set hive.mapred.mode=strict; 這種模式是爲了防止一些可能產生意想不到的不好的結果的查詢執行,在這種模式下,以下三種查詢被禁止: 1.帶有分區的表的查詢

原创 MapReduce實現基本SQL操作的原理

Join的實現原理 select u.name, o.orderid from order o join user u on o.uid = u.uid; 在map階段的輸出中給每個value一個tag,用於區分數據來源,在shuffl

原创 Spark SQL使用簡介(1)--基本使用

Spark SQL可以執行SQL查詢,也可以從Hive中讀數據。 DataFrame = Dataset<Row> 首先創建 SparkSession import org.apache.spark.sql.SparkSession

原创 機器學習方法簡介(3)--kmeans

kmeans是最著名的聚類算法,聚類算法就是計算種羣中的距離,根據距離的遠近將數據劃分爲多個族羣。 kmeans算法首先需要確定k的數量,即全部樣本所包含類別的數量。然後選擇k個初始中心點,之後我們計算所有樣本點與k箇中心點之間的距離,對

原创 KMP算法

KMP算法要解決的問題就是在字符串(也叫主串)中的模式(pattern)定位問題。說簡單點就是我們平時常說的關鍵字搜索。模式串就是關鍵字(接下來稱它爲P),如果它在一個主串(接下來稱爲T)中出現,就返回它的具體位置,否則返回-1(常用手段

原创 機器學習方法簡介(5)--協同過濾推薦算法

協同過濾推薦算法主要的功能是預測和推薦。算法通過對用戶歷史行爲數據的挖掘發現用戶的偏好,基於不同的偏好對用戶進行羣組劃分並推薦品味相似的商品。協同過濾推薦算法分爲兩類,分別是基於用戶的協同過濾算法(user-based collabora

原创 類加載的生命週期

首先上圖 接下來,逐個介紹各個過程: 1.加載 (1)通過一個類的全限定名來獲取這個類的二進制字節流。 (2)將這個字節流所代表的的靜態存儲結構轉化爲運行時數據結構。 (3)在內存中(HotSpot虛擬機中是方法區)生成代表這個類的ja

原创 數學符號大全

雖然在 Mathtype 能輸入絕大多數想要的數學字符,但是有些在 Visio 中無法輸入,可以在這裏找出,copy就好了,嘻嘻~        1、幾何符號    ⊥   ∥   ∠   ⌒   ⊙   ≡   ≌    △   2、代