原创 數據挖掘算法和實踐(八):K-means 聚類(西瓜數據集)

之前章節講到的算法都是有監督學習方法, 在建模之前需要訓練(樣本)數據集,模型根據樣本數據集的結果,訓練得到某些參數,形成分類器。無監督學習沒有訓練數據集,在數據集上根據某種規則完成模型建立; 所謂物以類聚-人以羣分,“類”指的是具有

原创 Kafka實踐七:Kafka自帶工具及常見異常處理文檔

Kafka自帶常用工具 Kafka的bin目錄下shell腳本是kafka自帶的管理工具,提供topic的創建/刪除/配置修改、消費者的監控、分區重載、集羣健康監控、收發端TPS壓測、跨機房同步等能力,Kafka運維者可以使用這些工具進行

原创 數據挖掘算法和實踐(二):決策樹(iris鳶尾花數據集)

決策樹是直觀運用概率分析的樹形分類器,是很常用的分類方法,屬於監管學習,決策樹分類過程是從根節點開始,根據特徵屬性值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作爲決策結果。 比如說買瓜的時候,根據瓜的某些特徵屬性直觀判斷瓜的好壞

原创 流式數據採集和計算(三):Flume、Logstash、Filebeat調研報告

概述 數據的價值在於把數據變成行動。這裏一個非常重要的過程是數據分析。提到數據分析,大部分人首先想到的都是Hadoop、流計算、機器學習等數據加工的方式。從整個過程來看,數據分析其實包含了4個過程:採集,存儲,計算,展示。大數據的數據採

原创 Hadoop大數據平臺實踐(一):基於apache hadoop的大數據平臺部署

大數據基礎組件部署文檔.. 1 第一部分:基於Apache社區版部署.. 5 節點及版本.. 5 節點規劃.. 5 組件版本.. 6 用戶及環境準備.. 6 用戶及權限.. 6 修改etc/hosts 6 ssh免密登錄.. 6 關閉SE

原创 分佈式技術原理(四):分佈式共識

目錄 分佈式共識:存異求同 PoW PoS DPoS   分佈式共識:存異求同 其實,這個選主過程就是一個分佈式共識問題,因爲每個節點在選出主節點之前都可以認爲自己會成爲主節點,也就是說集羣節點“存異”;而通過選舉的過程選出主節點,讓所有

原创 數據挖掘算法和實踐(六):seaborn數據可視化探索(tips 數據集)

seaborn是一個面向對象作圖工具,直譯是海洋生物,tips 是小費數據集(seaborn自帶),本次使用seaborn學習數據分佈的探索,在遇到新的數據集合時候,分析問題不至於無從下手;關於使用seaborn,參考官網 http:/

原创 流式數據採集和計算(十):Flink的DataStream學習筆記

Flink的DataStream學習筆記.. 1 Flink 基礎.. 3 Flink特性.. 3 Flink和Spark對比.. 3 設計思路.. 3 狀態管理.. 3 Flink 初探.. 4 設計架構.. 4 Flink on y

原创 數據挖掘算法和實踐(五):泰坦尼克號titanic的乘客生存預測模型剖析

titanic乘客的生存預測是數據挖掘的入門級實例,根據船上乘客的多維特徵預測事故發生後乘客的生還機率,屬於監督學習中典型的分類問題。本文結合對數據挖掘流程的理解和經典案列,呈現數據挖掘過程。 該模型屬於監督學習,需要訓練集和數據集:

原创 Kafka實踐六:使用 Kafka MirrorMaker 跨機房傳輸數據

    工作中遇到Kafka跨機房傳輸到遠程機房的場景,之前的方案是使用Flume消費後轉發到目標kafka,當topic增多並且數據量變大後,維護性較差且Flume較耗費資源;     在數據中心建設之處需要考慮數據的備份的同步機制,異

原创 kafka實踐一:手動修改消費偏移量的2種方式

工作中遇到過問題:包括數據Invalid Message和Failed_to_UNcompress等,會造成消費端的iterator損壞,導致消費進程掛掉,需要手動跳過某些數據; Kafka的偏移量有保存在zookeeper和kafka中

原创 kafka實踐二:部署Kafka需要衡量的問題

轉載:https://www.cnblogs.com/swordfall/p/10193336.html 該博文部分參考《Apache kafka實戰》-胡夕的第三章Kafka線上環境部署,關於最佳實踐的配置方面的建議,kafka在設計之

原创 數據挖掘算法和實踐(四):支持向量機(iris鳶尾花數據集)

支持向量機同樣是一種分類算法,它的目的是尋找一個超平面來對樣本進行分割,分割的原則是間隔最大化,當訓練樣本線性可分時,通過硬間隔最大化學習一個線性可分支持向量機;當訓練樣本近似線性可分時,通過軟間隔最大化學習一個線性支持向量機;當訓練樣本

原创 數據挖掘算法和實踐(一):線性迴歸和邏輯迴歸(house_price數據集)

數據挖掘算法基於線性代數、概率論、信息論推導,深入進去還是很有意思的,能夠理解數學家、統計學家、計算機學家的智慧,這個專欄從比較簡單的常用算法入手,後續將研究基於TensorFlow的高級算法,最好能夠參與到人臉識別和NLP的實際項目中,

原创 數據挖掘算法和實踐(三):樸素貝葉斯(mushrooms蘑菇數據集)

樸素貝葉斯同樣是一種常用的分類算法,該算法依據概率論中貝葉斯定理建立模型,前提假設各個特徵之間相互獨立(這也是正式“樸素”的含義),這個假設非常極端,因爲實際場景中多個特徵一般存在相關性,特徵相對獨立的假設使得算法變得簡單,因此在特徵值有