台部落有腹肌的小蝌蚪

之前章節講到的算法都是有監督學習方法，在建模之前需要訓練（樣本）數據集，模型根據樣本數據集的結果，訓練得到某些參數，形成分類器。無監督學習沒有訓練數據集，在數據集上根據某種規則完成模型建立；所謂物以類聚-人以羣分，“類”指的是具有

2020-06-21 19:42:42

Kafka自帶常用工具 Kafka的bin目錄下shell腳本是kafka自帶的管理工具，提供topic的創建/刪除/配置修改、消費者的監控、分區重載、集羣健康監控、收發端TPS壓測、跨機房同步等能力，Kafka運維者可以使用這些工具進行

2020-06-21 19:42:42

決策樹是直觀運用概率分析的樹形分類器，是很常用的分類方法，屬於監管學習，決策樹分類過程是從根節點開始，根據特徵屬性值選擇輸出分支，直到到達葉子節點，將葉子節點存放的類別作爲決策結果。比如說買瓜的時候，根據瓜的某些特徵屬性直觀判斷瓜的好壞

2020-06-21 19:42:42

概述數據的價值在於把數據變成行動。這裏一個非常重要的過程是數據分析。提到數據分析，大部分人首先想到的都是Hadoop、流計算、機器學習等數據加工的方式。從整個過程來看，數據分析其實包含了4個過程：採集，存儲，計算，展示。大數據的數據採

2020-06-21 18:55:48

大數據基礎組件部署文檔.. 1 第一部分：基於Apache社區版部署.. 5 節點及版本.. 5 節點規劃.. 5 組件版本.. 6 用戶及環境準備.. 6 用戶及權限.. 6 修改etc/hosts 6 ssh免密登錄.. 6 關閉SE

2020-06-21 18:55:48

目錄分佈式共識：存異求同 PoW PoS DPoS 分佈式共識：存異求同其實，這個選主過程就是一個分佈式共識問題，因爲每個節點在選出主節點之前都可以認爲自己會成爲主節點，也就是說集羣節點“存異”；而通過選舉的過程選出主節點，讓所有

2020-06-21 18:55:48

seaborn是一個面向對象作圖工具，直譯是海洋生物，tips 是小費數據集（seaborn自帶），本次使用seaborn學習數據分佈的探索，在遇到新的數據集合時候，分析問題不至於無從下手；關於使用seaborn，參考官網 http:/

2020-06-21 18:55:48

Flink的DataStream學習筆記.. 1 Flink 基礎.. 3 Flink特性.. 3 Flink和Spark對比.. 3 設計思路.. 3 狀態管理.. 3 Flink 初探.. 4 設計架構.. 4 Flink on y

2020-06-21 18:55:48

titanic乘客的生存預測是數據挖掘的入門級實例，根據船上乘客的多維特徵預測事故發生後乘客的生還機率，屬於監督學習中典型的分類問題。本文結合對數據挖掘流程的理解和經典案列，呈現數據挖掘過程。該模型屬於監督學習，需要訓練集和數據集：

2020-06-21 18:55:48

工作中遇到Kafka跨機房傳輸到遠程機房的場景，之前的方案是使用Flume消費後轉發到目標kafka，當topic增多並且數據量變大後，維護性較差且Flume較耗費資源；在數據中心建設之處需要考慮數據的備份的同步機制，異

2020-06-21 18:55:48

工作中遇到過問題：包括數據Invalid Message和Failed_to_UNcompress等，會造成消費端的iterator損壞，導致消費進程掛掉，需要手動跳過某些數據； Kafka的偏移量有保存在zookeeper和kafka中

2020-06-21 18:55:48

轉載：https://www.cnblogs.com/swordfall/p/10193336.html 該博文部分參考《Apache kafka實戰》-胡夕的第三章Kafka線上環境部署，關於最佳實踐的配置方面的建議，kafka在設計之

2020-06-21 18:55:48

支持向量機同樣是一種分類算法，它的目的是尋找一個超平面來對樣本進行分割，分割的原則是間隔最大化，當訓練樣本線性可分時，通過硬間隔最大化學習一個線性可分支持向量機；當訓練樣本近似線性可分時，通過軟間隔最大化學習一個線性支持向量機；當訓練樣本

2020-06-21 18:55:48

數據挖掘算法基於線性代數、概率論、信息論推導，深入進去還是很有意思的，能夠理解數學家、統計學家、計算機學家的智慧，這個專欄從比較簡單的常用算法入手，後續將研究基於TensorFlow的高級算法，最好能夠參與到人臉識別和NLP的實際項目中，

2020-06-21 18:55:48

樸素貝葉斯同樣是一種常用的分類算法，該算法依據概率論中貝葉斯定理建立模型，前提假設各個特徵之間相互獨立（這也是正式“樸素”的含義），這個假設非常極端，因爲實際場景中多個特徵一般存在相關性，特徵相對獨立的假設使得算法變得簡單，因此在特徵值有

2020-06-21 18:55:48