原创 千億級數據整合方案架構

文章目錄說明需求分析方案架構數據安全安全要求安全模塊數據應用dremio部署(Hadoop on yarn模式)個人博客 說明 本文着重於針對數據整合案例進行總結描述,選取部分數據ETL及平臺應用中面臨的問題及經驗進行介紹,未對完

原创 北京房價預測圖說

前言 曾聽人說過,中國經濟是房地產市場,美國經濟是股票市場。中國房地產市場超過400萬億,房地產總值是美國、歐盟、日本總和,但是股市才50萬億,不到美歐日的十分之一。可見房地產對於中國來說地位尤其明顯!對於我們很難在一線城市買房的年輕

原创 ClickHouse vs. MySQL vs. vertica vs. PostGreSQL

最近腦細胞休假回家過節,實在找不到更快的分析方法了。在一個晴空萬里的午後,心裏卻烏雲密佈,於是上網刷一刷,忽然發現一匹黑馬,大名ClickHouse,頓時烏雲散去,燦爛的陽光又直射到了那顆有趣的靈魂! 由於做了一段時間大數據架構,喜歡工具

原创 HIVE2.1 vs impala

HIVE2.0增加了LLAP(低延遲分析處理),並在2.1版本進行了改進,相較於HIVE 1有了25倍的查詢性能提升。LLAP以多線程方式採用內存進行計算。智能地將數據緩存到多臺機器內存中,並允許所有客戶端共享這些緩存的數據,同時保留了彈

原创 HDP HELLO WORLD案例

第一個HDP應用(物聯網案例) 摘要 準備 sandbox Hadoop生態 傳輸數據樣本到HDFS 使用Hive做ETL Hive知識點 創建ORC文件格式: 驗證 查詢數據 Hive設置 分析數據 創建TRUCK_MILEAG

原创 Mirantis Cloud Platform之MCP架構

源於官方文檔 根據自己理解翻譯而來。 MIRANTIS雲平臺是一個綜合的私有云軟件棧,具有可靠、彈性、可擴展的特點,包括openstack(裸機和虛擬機),kubernetes(容器),ceph(塊存儲和對象存儲),opencont

原创 pentaho & SPARK

一個人難以開發出一個強大且完整的系統,pentaho集成了BI和DI等功能,應用於報表製作和商業智能相對比較全面,最近看了國外文章,這裏做一些介紹。 pentaho 使用Adaptive Execution Layer (AEL)在不用系

原创 【轉】R語言異常檢測處理

看到一篇乾貨,感謝作者以及分享者,現與大家分享,轉自http://youhaolin.blog.163.com/blog/static/224494120201422110628586/ 本文結合R語言,展示了異常檢測的案例,主要

原创 R語言抓取廣州租房信息

要去廣州工作了,所以抓取了廣州租房信息看一下,來源是某家廣州租房網。網上爬蟲代碼很多,對於簡單的網頁實現起來也很簡單,直接上核心代碼: require(RCurl) ##載入包 require(XML) rm(list =

原创 django傳遞數據到後端

最近遇到一個問題,前端表單我寫了多個按鈕,每個按鈕通過for循環來給name賦值如下: <input type="button" class="btn btn-info btn-xs" name="{{item.document}}" v

原创 樸素貝葉斯隨筆-python

樸素貝葉斯大家都知道了,我也就不贅述了,可參考 點擊打開鏈接 http://scikit-learn.org/stable/modules/naive_bayes.html 如何使用比如根據天氣看小J是否出去打球,統計了她過去打球的數

原创 R語言字符串相似度 stringdist包

計算字符串相似度可以使用utils包中的adist函數,或者MKmisc包中的stringdist函數,或者RecordLinkage包中也有如jarowinkler之類的距離函數。本文介紹stringdist包中的stringdist函

原创 MapReduce學習筆記

MapReduce學習筆記 mapreduce提供了簡潔的編程接口,對某個計算任務來說,其輸入是key/value數據對,輸出也以key/value形式表示。開發只需實現Map和reduce兩個接口函數內的具體操作內容,即可完成大規模數據

原创 win10下安裝centos7雙系統之開機系統引導問題

**最近在win10下安裝了centos7,用了KDE桌面,但是遇到兩個問題:1)引導系統啓動發現只更改grub.cfg文件後啓動項有了,但是進去報錯:variable root isn’t set ;2)無線網絡連接不了,打開了網卡,能

原创 R語言隨機森林初探

先介紹一下吧 在監督學習或者分類中,隨機森林(RF)是一個非常好的分類學習算法。隨機森林算法的實質是基於決策樹的分類器集成算法,每一棵決策樹給出一對實體的匹配決策,並根據所有的樹的投票來得到最終決策。 基本思想:首先,通過自助法(bo