原创 ubuntu18.04中/etc/apt/sources.list鏡像源文件配置錯誤

W: 目標 * 在 /etc/apt/sources.list:41 和 /etc/apt/sources.list.d/xenial-partner.list:4 中被配置了多次 在輸入sudo apt-get update後出

原创 論一論Token

一直以來,服務都分爲單體服務,和分佈式服務,在我們學習,甚至是工作中都經常性的接觸,構建單體服務,那麼單體服務對於用戶會話狀態的保持大多數使用Session,Cookie等技術手段,這些技術手段存在着老生常談的問題, 1.Sess

原创 ubuntu完全卸載Docker

ubuntu 完全乾淨的卸載docker 刪除某軟件,及其安裝時自動安裝的所有包 sudo apt-get autoremove docker docker-ce docker-engine docker.io contain

原创 關於Mysql服務的一點積累-Mysql基礎

Mysql數據庫大體上分爲以下幾個關鍵點 1.基礎的語言部分 數據定義語言(DDL)用來定義數據庫對象,對數據庫,表等結構性對象的增刪改操作。 數據操縱語言(DML)用來定義數據庫記錄,對錶中記錄的增刪改操作。 數據查詢語言(DQ

原创 HIve之行轉列,列轉行操作

行轉列將類似如下數據轉爲,特徵值,標記數據表名爲test3列c1,c2,c3數據如下a,b,1a,b,2a,b,3c,d,4c,d,5d,f6多行轉換爲一列selectc1,c2,concat_ws(’,’,collect_s

原创 Kafka安裝與整合flume,Sparkstreaming的簡單實例測試

Kafka是一種高吞吐量的分佈式消息系統,Kafka的目的是通過Hadoop的並行加載機制來統一線上和離線的消息處理,也是爲了通過集羣機來提供實時的消費。下面介紹有關Kafka的簡單安裝和使用,想全面瞭解Kafka,請訪問Kafka的

原创 在hadoop集羣上的集成Hive

本文章的各項配置均參考cloudera官網,如有版本變化,導致配置無效,出錯,請參考cloudera官網文檔。 cloudera官網:https://www.cloudera.com 輸入網址加載成功,導航條拉到最底部。 查看日

原创 HDFS讀寫文件流程

1.HDFS寫流程 客戶端要向HDFS寫入數據,首先要跟namenode通信以確認可以寫文件並獲得接受文件block的datanode,並且由接收到block的datanode負責向其他datanode賦值lock的副本 如下圖所示

原创 HDFS命令參考

在$HADOOP_HOME/bin/hadoop fs裏有更多的命令,/bin/hdfs dfs 可以列出所有可以在fs shell系統上運行的命令。此$HADOOP_HOME/bin/hadoop fs -help命令會顯示簡短的用

原创 Spark之Spark入門

Scala是一門多範式的編程語言,一種類似java的編程語言,設計初衷是實現可伸縮的語言、並集成面向對象編程和函數式編程的各種特性。由於Spark本身是用Scala語言開發的,所以選擇了用Scala來開發應用。 1.Scala下載 S

原创 Spark入門篇之簡介

Spark是Apache基金會的一個頂級項目,也是Apache基金會下目前最活躍的開源項目之一,誕生於加州大學伯克利分校的AMP實驗室,是一個開源的基於內存的分佈式計算框架。由於Spark是基於內存的計算,相對於MapReduce來說

原创 Hive開發使用-

適用場景 1.海量數據的存儲處理 2.數據挖掘 3.海量數據的離線分析 3.1目前的Hive的Thrift服務端通常使用HiveServer2,它是HiveServer2改進版本,它提供了新的ThriftAPI來處理JDBC或者ODB

原创 scala入門篇之-簡介

近期學習到Spark首先花一下午的時間學習一下與之緊密結合的scala腳本語言: 首先我們的安裝一個運行環境 1.根據你選擇的scala版本來驗證你的JDK版本是否合格,怎麼選擇,如何考慮,本文不作概述。 2.到官網下載合適的sca

原创 Mysql結構簡介

MySQL安裝成功後會在兩個目錄中存儲文件: C:\ProgramData\MySQL\MySQL Server 5.5\data:DBMS數據庫文件(卸載MySQL時不會刪除這個目錄,需要自己手動刪除); D:\Program Fi

原创 Mysql數據庫簡介

1.1、數據庫的概念 數據庫就是用來存儲和管理數據的倉庫。數據庫存儲數據的優點: 可存儲大量數據; 方便檢索; 保持數據的一致性、完整性; 安全,可共享; 通過組合分析,可產生新數據; 1.2、數據庫的發展歷程 沒有數據庫,使用磁盤文