原创 數據挖掘---分類算法之神經網絡算法BPN

        有段時間沒有寫了,覺得很有必要繼續加油寫下去。一直有想梳理下主要的機器學習算法了,做一個從各個主流算法到新興的算法,都做一番回顧,理論結合代碼實踐,做一個複習,畢竟溫故而知新。順便說下,什麼機器學習,數據挖掘,人工智能,這

原创 數據挖掘---深度學習之TensorFlow(一)

TensorFlow學習(一) TensorFlow安裝 TensorFlow基本概念 TensorFlow簡單例子 TensorFlow安裝 在centos上面體驗,使用的是Anaconda的方式,裏面自帶了很多默認的學習

原创 數據存儲---Mysql雙機互爲熱備方案實踐

    Mysql作爲一個流行的數據庫,對於怎麼樣構建高性能、高可用、可擴展的MySQL集羣,的確是一個討論很多的話題。方案多種多樣,看到知乎上面的https://www.zhihu.com/question/21307639,這些方案應

原创 數據處理---那些年遇到的SQL彙總

     那些年遇到的SQL問題真的不少,各種類型的,有面試的時候遇到的SQL,有開發的時候遇到的,有性能優化的時候遇到的,還有在網上看到的各種資料的,林林總總,問題不少,這裏做個彙總,從以下幾個方面說下:1,各種SQL語句;2索引和SQ

原创 數據挖據---機器學習平臺之H2O架構/接口/實踐

上一章介紹了H2O的使用,這次來學習學習H2O架構接口和實踐。 1,H2O架構 關於H2O架構,很多資料也有說明,這裏我們一起來看看官網上的介紹。 最上面的是客戶層,即接口交互層,H2O支持JavaScript,R,Python

原创 數據分析---最小二乘法和梯度下降法

       最近在整理數據優化方面的知識,看的多了最小二乘法和梯度下降法之類的詞語經常出現,很多算法都有用到類似方法,或者很多算法看起來和這些似曾相識,比如BP神經網絡,支持向量機,等等分類迴歸方法。可見這最小二乘法和梯度下降法是很基礎

原创 HBASE---數據存儲實踐

         HBASE(來自Hadoop database)是一個很好的BigTable的實現,能夠存儲上百億行和百萬列的數據,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統。          HBASE的基本架構組成如下

原创 Mahout系列之推薦算法-基於用戶協同過濾

Mahout的一大特色就是包含了推薦算法,裏面包括了多種常見的算法,下面我們來分析分析。 針對基於用戶行爲數據的推薦算法一般稱爲協同過濾算法。協同過濾算法有基於領域(neighborhood-based)的方法,隱語義模型(latent

原创 Mahout系列之推薦引擎核心源碼

           Mahout裏面的推薦包括了常見的方法和多種擴充的方法,對推薦的模型做了很好的封裝。下面我們就來一起讀讀源碼,讀讀更健康!            下載Mahout,本文用到的是apache-mahout-distri

原创 數據倉庫---JPivot連接MySQL VS PostgreSQL

         JPivot是一個基於mondrian(OLAP分析服務)的可鑽取web報表展示標籤,形成了整套的較方便的數據倉庫主題web展現工具。話說JPivot已經很久沒有更新了,作爲小規模的應用,試試可以,但是要做爲產品,貌似還

原创 Mahout系列之推薦算法-基於物品協同過濾實踐

上文已經說明了用戶的協同過濾,這篇也來談談基於物品的協同過濾。 2.基於物品的協同過濾 類似的,也很容易做出一個簡單的基於物品的過濾方法。 1. 單機基本算法實踐 public static void ItemBased() {try

原创 數據提取-Selenium專治各種頑固性客戶端

         說起Selenium,很多人想到的是Selenium用在自動化web測試上,的確,Selenium是一個很好的自動化測試工具,能夠實現很多便利的測試功能。其實Selenium也是一款數據抽取的神器。我們知道現在很多網站使

原创 數據提取----httpclient,htmlparser,xpath

          網頁數據提取的方法很多,從其基本原理來說很多就是通過模擬http請求,發送給服務器,然後接收響應,解析響應的結果。整個過程說簡單也簡單,說複雜也複雜。這裏來整理下做過的一些事,走過的路,遇到的坑。 1,基本思路 這裏

原创 HBase---Phoenix(SQL on HBase)

      前面說過,HBase的是一個Key-Value的數據庫,很多簡單的SQL都沒有,想做些查詢都不方便,這裏來介紹下Apache的Phoenix。        Phoenix,由saleforce.com開源的一個項目,後又捐給

原创 Mahout系列之核心功能實踐

        上次已經說到了Mahout的計算項目模塊mahout math。這裏麪包含了很多常用的數學計算或者統計方面的東西,有很多東西可能會用到,所以對這些基礎的需要有很好的理解。Mahout提供了很多工具的命令行方式,下面列出所有