原创 One-Hot 編碼

獨熱編碼即 One-Hot 編碼,又稱一位有效編碼,其方法是使用N位狀態寄存器來對N個狀態進行編碼,每個狀態都由他獨立的寄存器位,並且在任意時候,其中只有一位有效。獨熱編碼恰好是一種解決上述問題的好辦法。不過數據也因此變得稀疏。

原创 Spark常用算子概述

轉載自 https://blog.csdn.net/u010199356 Spark的算子的分類   從大方向來說,Spark 算子大致可以分爲以下兩類:     1)Transformation 變換/轉換算子:這種變換並

原创 AttributeError: 'DataFrame' object has no attribute 'map'

[root@master pyspark]# spark-submit spark_python_sql.py 19/05/04 17:03:16 WARN NativeCodeLoader: Unable to load nativ

原创 spark-env.sh配置參數詳解

Spark記錄-spark-env.sh配置 環境變量含義 SPARK_MASTER_IP master實例綁定的IP地址,例如,綁定到一個公網IP SPARK_MASTER_PORT mater實例綁定的端

原创 spark重分區算子repartition和coalesce解析

    在spark中,有時候我們覺得task並行度太小,就想着提高其並行度。     首先,先說一下有多少種增加分區提高並行度的方法: 1,textFile(path, numPartion=partitionNum) 2,增加hd

原创 數據分析之繪製邊界以及np.c_和np.r_用法

這裏記錄一下繪製分類邊界的方法。記錄一下meshgrid,pcolormesh的使用方法 import numpy as np # 抓取數據 iris = datasets.load_iris() x = iris.data[:, 1

原创 SVM核函數概述

特徵空間的隱式映射:核函數     咱們首先給出核函數的來頭:在上文中,我們已經瞭解到了SVM處理線性可分的情況,而對於非線性的情況,SVM 的處理方法是選擇一個核函數 κ(⋅,⋅) ,通過將數據映射到高維空間,來解決在原始空間中線

原创 機器學習之貝葉斯定理

貝葉斯定理 ​ 貝葉斯定理是關於隨機事件A和B的條件概率(或邊緣概率)的一則定理。其中P(A|B)是在B發生的情況下A發生的可能性。 ​ 貝葉斯定理也稱貝葉斯推理,早在18世紀,英國學者貝葉斯(1702~1763)曾提出計算條件概率的

原创 機器學習之決策樹-隨筆

決策樹 決策樹的本質: ​ 對數據進行分類,降低不確定性。 ​ 這裏,我們來判斷下面幾個人中是否喜歡打籃球。構建的決策樹如下: 所謂決策樹,樹在前面,決策在後面。 ​ 這裏,我們有假設一個美女相親進行決策的情況。呵呵 ​ 重點在找

原创 機器學習之線性迴歸

線性迴歸 這裏,我們將工資和年齡作爲自變量, 額度作爲因變量來建立模型,預測不同情況下,銀行根據客戶的工資和年齡應該發放的貸款額度。建立特徵值和預測值的映射關係公式: 假設爲對應特徵值和參數θ的情況下的預測值與真實值的誤差: ​

原创 推薦引擎模型架構和排序模型概述

排序模型 推薦引擎模型架構 推薦系統實踐: (1)解析請求:userid,request_itemid (2)加載模型:加載model.w model.b (3)檢索候選集合:分別利用cb和cf去redis裏面檢索數據庫,得到ite

原创 數據分析之-matplotlib概述

matplotlib概述 matplotlib是python的一個繪圖庫.使用它可以很方便的繪製出版質量級別的圖形. matplotlib的基本功能 基本繪圖 繪製折線, 設置線型/線寬/顏色等. 設置座標軸範圍 設置座標刻度 設

原创 數據分析之-numpy概述

numpy概述 Numerical Python(數值python). 補充了python欠缺的數值運算能力. Numpy是其他數據分析及機器學習的底層庫. Numpy完全標準C語言實現, 運行效率高. 開源免費. numpy的歷

原创 數據分析-使用matplotlib可視化工具畫圖

區域填充 以某種顏色填充兩條曲線的閉合區域. mp.fill_between( x, # x值的區間 sin_x, # 與x組成一條曲線 cos_x, # 與x組成第二條曲線 sin_x

原创 大數據技術生態體系組件概述

大數據架構如下圖所示: 圖中涉及的技術名詞解釋如下: 1)Sqoop:sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL ,Ora