原创 數據倉庫——Hive入門介紹

一,什麼是Hive: 1.Hive是建立在Hadoop HDFS上的數據倉庫基礎架構; 2.Hive可以用來進行數據提取轉化加載(ETL) 3.Hive定義了簡單的類似SQL查詢語言,稱爲HQL它允許熟悉SQL的用戶查詢數據 4.

原创 設計模式---策略模式

一、什麼是策略模式? 策略模式:將可變的部分從程序中抽象分離成算法接口,在該接口下分別封裝一系列算法實現。 二、光榮與夢想—鴨子應用:策略模式的實現 1、模擬應用背景: 鴨子應用代碼如下: package com.sfd.duck

原创 Hive中表的鏈接(外連接和自連接)

學習前準備三張表: 1、等值連接 如果連接條件中是一個等號這是等值連接 2、不等值連接 如果連接條件中不是一個等號這是不等值連接 3、外連接 例題:按部門統計員工人數:部門號,部門名稱,人數 1)、使用等值連接:

原创 Hive的執行生命週期

七大步驟 1.CliDriver進行交互模式 1.入口:/bin/hive 2.調用CliDriver類進行初始化過程 3.處理-e,-f,-h等信息,如果是-h,打印提示信息,並退出 4.讀取hive的配置文件,設置Hi

原创 groovy語法基礎

1.註釋 1.1.單行註釋 單行註釋以//開始,在一行中任何位置都可以被發現。//後面的字符,直到一行的末尾都是註釋的一部分。 // a standalone single line comment println “hello” /

原创 解釋器和編譯器區別和聯繫

1.解釋器是一條一條的解釋執行源語言。比如php,postscritp,javascript就是典型的解釋性語言。   編譯器是把源代碼整個編譯成目標代碼,執行時不在需要編譯器,直接在支持目標代碼的平臺上運行,這樣執行效率比解釋執行快很

原创 Git相比較SVN有哪些優點

1.Git是分佈式的SCM,SVN是集中式的 2.Git每個歷史版本存儲完整的文件,SVN存儲文件差異 3.Git可離線完成大部分操作,SVN則相反 4.Git有着優雅的分支合併實現 5.Git有更強的撤銷修改和修改版本歷史的能力

原创 zookeeper的集羣安裝

1.上傳zk安裝包(點擊這裏下載) 2.解壓 3.配置(先在一臺節點上配置) 3.1添加一個zoo.cfg配置文件 $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg 3.2修

原创 Yarn產生的歷史背景

Yarn產生的歷史背景 Hadoop是apache基金會的一個項目, 目的是開發一個開源軟件,用於可靠的可擴展的,分佈式的計算。 Hadoop不是一個軟件,而是一個軟件庫,hadoop作爲一個軟件庫,提供了一個框架,可以以分佈式的方式,

原创 YARN的設計思想和功能組件簡介

Yarn的設計思想 A. Yarn(Yet Another Resource Negotiator) B. Yarn的基本思想: 將JobTracker啷個主要功能分離成單獨的組件,一個全局的ResourceManager和每個應

原创 Hadoop1.X mapreduce原理和缺陷

MapReduce的簡介: MapReduce是一個軟件框架,客房部件的編寫應用程序,一併行的方式在數千商用硬件組成的集羣節點中處理TB級的數據,並且提供了可靠性和容錯的能力。 MapReduce的範式: MapReduce處

原创 Hadoop的歷史和創建

一.Hadoop的歷史: hadoop之父DougCutting hadoop一開始只是ApacheLucene的子項目。 ApacheLucene 1.全球第一個開源的全文檢索引擎工具包 2.完整的查詢引擎和索引引擎 3.部分文本分析引

原创 HDFS的主要設計理念

一、HDFS的主要設計理念 1、存儲超大文件 這裏的“超大文件”是指幾百MB、GB甚至TB級別的文件。 2、最高效的訪問模式是 一次寫入、多次讀取(流式數據訪問) HDFS存儲的數據集作爲hadoop的分析對象。在數據集生成後,長時間在此

原创 Git本地分支與合併

1.git branch:創建分支 2.git tag:給固定的commit做標記 例如:我們有一個分支是做版本release的,當某一個release發現問題的時候,我們希望能根據一個引用輕鬆的切換回這個提交而不是查看歷史記錄然後再進行

原创 幾種常見的排序算法

1.冒泡排序 2.直接插入排序 3.簡單選擇排序 4.希爾排序 5快速排序