原创 Spark安裝,使用docker

notice:看這篇要注意,暫時我能跑起來,web ui也能訪問,但是程序連的時候報rpc問題,不知道是不是內存不夠。 Docker的入門        啓動Docker服務: systemctl start docker.service

原创 分佈式理論CAP - C(一致性)A(可用性)P(分區容忍性)不可兼得

1.what這個理論是什麼 官方文檔定義 分佈式系統的CAP理論:理論首先把分佈式系統中的三個特性進行了如下歸納: 一致性(C):在分佈式系統中的所有數據備份,在同一時刻是否同樣的值。(等同於所有節點訪問同一份最新的數據副本) 可用性(A

原创 Spark入門知識(application, job, stage, task)

http://litaotao.github.io/deep-into-spark-exection-model 1.what這個技術是什麼 官方文檔定義  spark 裏,job,stage,task 的概念: application(

原创 技術文章結構

以後寫的文章大概參照這個大綱來了解技術。如果專有名詞很多,應該還要寫個入門來介紹各種專有名詞。 1.what這個技術是什麼 官方文檔定義 對比同類技術的優缺點,適用場景 此技術的架構組成 2.why爲什麼有這個技術 此技術解決什麼問題 如

原创 推薦系統 - 基於用戶的協同過濾推薦 - 入門

原文:https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md 定義 協同過濾,這個方法是利用他人的喜好來進行推薦,也就是說,是大家一起產生的推薦。他的工

原创 數據挖掘,機器學習,人工智能區別

有篇很好的解釋:https://www.cnblogs.com/zlslch/p/7398781.html 下面是以前自己總結的。 定義(以下都是百度百科抽取出來) 數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。 機器學

原创 Java static靜態變量只有一個,被類擁有

java類提供了兩種類型的變量:用static關鍵字修飾的靜態變量和沒有static關鍵字修飾的實例變量。 1.靜態變量屬於類,在內存中只有一個副本(所有勢力都指向同一個內存地址)。只要靜態變量所在的類被加載,這個靜態類就會被分配空間,因

原创 行存儲(關係型數據庫)與列存儲(hbase,es聚合的doc_value)

1.爲什麼要按列存儲 列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表: Ø  Row-based storage

原创 Spring全家桶

原文:https://www.cnblogs.com/lagou/p/10552815.html   一、5個常用的spring框架 ▌1.spring framework 也就是我們經常說的spring框架,包括了ioc依賴注入,Co

原创 Spring知識點

原文:https://www.cnblogs.com/lagou/p/10552815.html 一、spring基本概念 本文涉及的流程與實現默認都是基於最新的5.x版本。   spring中的幾個重要概念如下:   ▌1.IOC I

原创 推薦系統 - 基於物品本身的特徵來(分類)推薦- 步驟與進階的knn

原文 https://github.com/litaotao/guidetodatamining/blob/master/chapter-4.md https://github.com/litaotao/guidetodatamining

原创 推薦系統 - 基於物品本身的特徵來(分類)推薦- 專有名詞解釋

我們將這些數據集分爲了兩個部分,第一部分用來構造分類器,因此稱爲訓練集;另一部分用來評估分類器的結果,因此稱爲測試集 十折交叉驗證:將數據集隨機分割成十個等份,每次用9份數據做訓練集,1份數據做測試集,如此迭代10次。進而得出準確率。 留

原创 推薦系統 - 基於物品的協同過濾推薦 - 入門

https://github.com/litaotao/guidetodatamining/blob/master/chapter-3.md 定義 而基於物品的協同過濾則是找出最相似的物品,再結合用戶的評價來給出推薦結果。   比較 基

原创 Yarn(分佈式資源管理器)和Zookeeper(分佈式協作服務)區別

Zookeeper Zookeeper是一個分佈式協調服務(Coordination),一個leader,多個follower組成的集羣,就是爲用戶的分佈式應用程序提供協調服務。 Zookeeper是爲別的分佈式程序服務的。Zookeep

原创 Spark(這裏只談批處理)必知

1.what這個技術是什麼 官方文檔定義 Apache Spark™ is a unified analytics engine for large-scale data processing. 就是大數據分析引擎,至於unified(統