原创 數據預處理—獨熱編碼

問題引入 在很多機器學習任務中,特徵並不總是連續值,而有可能是分類值。 例如,考慮一下的三個特徵: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses F

原创 Kaggle-tiantic數據建模與分析

1.數據可視化 kaggle中數據解釋:https://www.kaggle.com/c/titanic/data 數據形式: 讀取數據,並顯示數據信息 data_train = pd.read_csv("./data/train.csv

原创 推薦系統-協同過濾

一、基本介紹 1. 推薦系統任務 推薦系統的任務就是聯繫用戶和信息一方面幫助用戶發現對自己有價值的信息,而另一方面讓信息能夠展現在對它感興趣的用戶面前從而實現信息消費者和信息生產者的雙贏。 2. 與搜索引擎比較 相同點:幫助用戶快速發

原创 推薦系統實戰——冷啓動問題

一、冷啓動問題介紹 如何在沒有大量用戶數據的情況下設計個性化推薦系統並讓用戶對推薦結果滿意從而願意使用推薦系統,就是冷啓動問題。 用戶冷啓動:如何給新用戶做個性化推薦 物品冷啓動:如何將新物品推薦給可能對其感興趣的用戶。在新聞網站等

原创 推薦系統-協同過濾原理與實現

一、基本介紹 1. 推薦系統任務 推薦系統的任務就是聯繫用戶和信息一方面幫助用戶發現對自己有價值的信息,而另一方面讓信息能夠展現在對它感興趣的用戶面前從而實現信息消費者和信息生產者的雙贏。 2. 與搜索引擎比較 相同點:幫助用戶快速發現有

原创 推薦系統實戰——推薦基礎(第一、二章)

一、基本介紹   1. 推薦系統任務: 推薦系統的任務就是聯繫用戶和信息一方面幫助用戶發現對自己有價值的信息,而另一方面讓信息能夠展現在對它感興趣的用戶面前從而實現信息消費者和信息生產者的雙贏。 2. 與搜索引擎比較: 相同點:幫助用戶快

原创 Hadoop生態系統之Yarn

Apache YARN(Yet Another Resource Negotiator) 是Hadoop的集羣資源管理系統。YARN被引入Hadoop2最初是爲了改善MapReduce的實現,但它具有足夠的通性,同樣可以支持其他的分佈式計

原创 Hadoop生態系統之HDFS

一、介紹 HDFS : 分佈式文件系統(distributed filesystem),主從結構。              以流式數據訪問模式來存儲超大文件,運行於商用硬件集羣上。 超大文件: 幾百M,幾百G,甚至幾百TB大小的文件。

原创 Hadoop環境搭建及wordcount程序

    目的: 前期學習了一些機器學習基本算法,實際企業應用中算法是核心,運行的環境和數據處理的平臺是基礎。     手段: 搭建簡易hadoop集羣(由於機器限制在自己的筆記本上通過虛擬機搭建) 一、基礎環境介紹 win10 vmwar

原创 無監督學習——K-均值聚類算法對未標註數據分組

無監督學習         和監督學習不同的是,在無監督學習中數據並沒有標籤(分類)。無監督學習需要通過算法找到這些數據內在的規律,將他們分類。(如下圖中的數據,並沒有標籤,大概可以看出數據集可以分爲三類,它就是一個無監督學習過程。)   

原创 機器學習——前饋神經網絡

一、神經網絡基礎 1. 神經元模型 神經網絡中最基本的單元是神經元模型(neuron)。 細胞體分爲兩部分,前一部分計算總輸入值(即輸入信號的加權和,或者說累積電平),後一部分先計算總輸入值與該神經元閾值的差值,然後通過激活函數(acti

原创 Java 內存分配及垃圾回收機制初探

一、運行時內存分配 Java虛擬機在執行Java程序的過程中會把它所管理的內存劃分爲若干個不同的數據區域。 這些區域都有各自的用途,以及創建和銷燬的時間,有的區域隨着虛擬機進程的啓動而存在,有些區域則依賴用戶線程的啓動和結束而建立和銷燬。

原创 監督學習——決策樹理論與實踐(下):迴歸決策樹(CART)

介紹 決策樹分爲分類決策樹和迴歸決策樹: 上一篇介紹了分類決策樹以及Python實現分類決策樹: 監督學習——決策樹理論與實踐(上):分類決策樹          決策樹是一種依託決策而建立起來的一種樹。在機器學習中,決策樹是一種預測模

原创 監督學習——logistic進行二分類(python)

線性迴歸及sgd/bgd的介紹:          監督學習——隨機梯度下降算法(sgd)和批梯度下降算法(bgd) 訓練數據形式:          (第一列代表x1,第二列代表 x2,第三列代表 數據標籤 用 0/1表示) 訓練函數形式

原创 監督學習——樸素貝葉斯分類理論與實踐

對於給定的訓練數據,首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈,然後基於此模型,對給定的輸入x,利用貝葉斯定理求出後驗概率最大的輸出y。 條件概率: 條件概率應該比較熟悉,P(A|B) 表示事件B已經發生的條件下,事件A發生