原创 流式數據採集和計算(十一):Flink和Spark對比

1 Flink介紹 Flink 是一個面向分佈式數據流處理和批量數據處理的開源計算平臺。和 Spark 類似,兩者都希望提供一個統一功能的計算平臺給用戶,都在嘗試建立一個統一的平臺以運行批量,流式,交互式,圖處理,機器學習等應用。 1

原创 數據挖掘算法和實踐(十):TensorFlow和keras如何實現線性迴歸LinearRegression

從實踐出發學習TensorFlow和teras機器學習框架,分別用tf和keras實現線性模型,兩者區別在於前者相當於手推了線性迴歸模型,後者使用單層的感知機,很便捷,代碼地址:https://github.com/yezonggang

原创 Hadoop大數據平臺實踐(三):虛擬機部署Ambari + HDP 2.6.X 版本

    同CDH部署類似,步驟分爲ambari的部署和hdp的部署,先以1臺爲例(內存>6G,磁盤劃分/至少40G,/data/10G),後續節點可以通過擴容方式加入集羣,可參考:https://blog.csdn.net/qq_3259

原创 Hadoop大數據平臺實踐(四):虛擬機部署CM + Cloudera Hadoop 6.1.0

    vm虛擬機內安裝CM+CDH6.1.0,centos7系統,本機資源有限,教程先以1臺爲例(內存>6G,磁盤劃分/至少40G,/data/10G),後續節點可以通過擴容方式加入,所以分爲兩個大步驟:cm節點部署,和集羣的擴容;  

原创 分佈式技術原理(三):分佈式選舉

目錄 分佈式選舉 長者爲大:Bully 算法 民主投票:Raft 算法 具有優先級的民主投票:ZAB 算法 分佈式選舉 主節點在一個分佈式集羣中負責對其他節點的協調和管理,也就是說其他節點都必須聽從主節點的安排。主節點的存在就可以保證其他

原创 分佈式技術原理(二):分佈式互斥

目錄 分佈式互斥 霸道總裁:集中式算法 民主協商:分佈式算法 輪值 CEO:令牌環算法 分佈式互斥 分佈式系統裏,這種排他性的資源訪問方式,叫作分佈式互斥(Distributed Mutual Exclusion),而這種被互斥訪問的共享

原创 分佈式技術原理(五):分佈式事務

目錄 分佈式事務 基於數據庫實現分佈式鎖 基於緩存實現分佈式鎖 基於 ZooKeeper 實現分佈式鎖 分佈式事務 在單機多線程環境中,我們經常遇到多個線程訪問同一個共享資源(這裏需要注意的是:在很多地方,這種資源會稱爲臨界資源,但在今天

原创 分佈式技術原理(六):分佈式和人工智能

分佈式和人工智能 2016 年 3 月,Google AlphaGo 與圍棋世界冠軍李世石進行圍棋人機大戰,以 4 比 1 的總分獲勝。至此,人工智能技術被推向了高潮。現在,人工智能已經廣泛滲入到了我們的生活中,比如手機拍照美化、人臉識別

原创 python爬蟲(三):爬蟲常用工具包

上一篇爬取bilibili的彈幕進行圖雲展示:爬取B站《夏洛特煩惱》字幕詞雲展示,是爬取數據+數據展示結合的範例,這裏將介紹爬蟲的常用工具; 目錄 常用工具 Requests lxml BeautifulSoup tqdm ffmpy

原创 python爬蟲(二):爬取B站《夏洛特煩惱》字幕,詞雲展示

前面說過爬蟲無非是文本、圖片、音頻,難度依次上升,雖然爬取數據的步驟是固定的,但是細節上的處理邏輯可能不同,比如html的解析方式、反爬取的手段、分佈式爬取等,本文介紹最簡單文本的爬蟲方式,結合數據分析和可視化能力,爭取能夠做到一站式數

原创 數據挖掘算法和實踐(十四):kaggle上搭建卷積神經網絡(CNN)實現fashion_MNIST

卷積神經網絡 CNN(Convolutional Neural Network)是一種前饋型的神經網絡,通過卷積運算識別圖像邊緣和紋理,再通過不斷的卷積提取出抽象的特徵,最終實現圖像識別,其在大型圖像處理方面有出色的表現,廣泛應用到圖像

原创 數據挖掘算法和實踐(十三):使用tf.data.DataSet模塊處理數據

 目錄 一、DataSet的創建: 二、DataSet的常用函數: 三、使用DataSet改寫fashion_MNIST分類模型: 類似於numpy中的ndarray數據類型和數據操作,TensorFlow提供了tf.data.Data

原创 數據挖掘算法和實踐(十二):使用tf.keras實現fashion_MNIST圖像分類

fashion_MNIST是一個手寫圖像分類數據集,主要是一些穿衣搭配的圖表,數據集比較小,是一個適合練手的數據集,也是第一個多分類實例,使用softmax損失函數進行訓練;softmax保證輸出的分類是一個概率,且所以分類的概率結果加

原创 分佈式技術原理(九):分佈式體系結構之集中式結構

  分佈式體系結構之集中式結構 雲這個話題對我們來說已經非常熟悉了。可以說,雲在我們的生活中無處不在,比如我們平時看的視頻通常就是放在雲上的。當我們要播放一段視頻時,請求會先轉發到雲上,從雲上下載數據到本地,然後播放。在這裏,你肯定會疑惑

原创 數據挖掘算法和實踐(十一):keras實現邏輯迴歸分類(鳶尾花數據集)

使用keras實現鳶尾花的分類,先轉換成二分類問題; 如下: from __future__ import absolute_import, division, print_function import tensorflow as