原创 大數據存儲技術和Mongodb介紹
在過去的很長一段時間中,關係型數據庫(Relational Database Management System)一 直是最主流的數據庫解決方案,他運用真實世界中事物與關係來解釋數據庫中抽象的數據架構。然而,在信息技術爆炸式發展的今天,大
原创 Hive數據庫概述
Hive屬於數據倉庫的概念範疇,主要用於進行數據分析用,不適合實時數據查詢。可以完成海量數據的存儲,存儲在HDFS上,不需要類似關係數據庫那樣的固定格式限制,對應的表實際上就是hadoop hdfs上的文件夾,表中數據相當於文件,具體介紹
原创 Hive元數據
HIVE元數據庫 Hive 將元數據存儲在 RDBMS 中,一般常用的有MYSQL和DERBY。 DERBY 啓動HIVE的元數據庫 進入到hive的安裝目錄 Eg: 1、啓動derby數據庫 /home/admin/caona/hi
原创 Hive數據庫創建表
HIVE 基本操作 create table 總述 CREATE TABLE 創建一個指定名字的表。如果相同名字的表已經存在,則拋出異常;用戶可以用 IF NOT EXIST 選項來忽略這個異常。 EXTERNAL 關鍵字可以讓用戶
原创 centos7安裝mysql5.7解壓版
環境:centos7 64位 本教程安裝MySQL是通過編譯過的二進制文件進行安裝。是不針對特定平臺的通用安裝方法,解壓版本的mysql,使用的二進制文件是後綴爲.tar.gz的壓縮文件 1、下載 http://dev.mysql.com
原创 數據挖掘和數據分析之數據中位數和衆數
中位數 中位數是指將數據按大小順序排列起來,形成一個數列,居於數列中間位置的那個數據。中位數用Me表示。 從中位數的定義可知,所研究的數據中有一半小於中位數,一半大於中位數。中位數的作用與算術平均數相近,也是作爲所研究數據的
原创 Hive中的join操作原理和優化
Hive是基於Hadoop平臺的,它提供了類似SQL一樣的查詢語言HQL。有了Hive,如果使用過SQL語言,並且不理解Hadoop MapReduce運行原理,也就無法通過編程來實現MR,但是你仍然可以很容易地編寫出特定查詢分析的H
原创 數據庫讀寫分離的理解
讀寫分離,基本的原理是讓主數據庫處理事務性增、改、刪操作(INSERT、UPDATE、DELETE),而從數據庫處理SELECT查詢操作。數據庫複製被用來把事務性操作導致的變更同步到集羣中的從數據庫。
原创 Shell腳本中各種括號用法
一、小括號,圓括號() 1、單小括號 () ①命令組。括號中的命令將會新開一個子shell順序執行,所以括號中的變量不能夠被腳本餘下的部分使用。括號中多個命令之間用分號隔開,最後一個命令可以沒有分號,各命令和括號之間不必
原创 官方jdbc方式訪問hive服務器
說明 Hive某種意義上來說是一個數據庫,也叫做數據倉庫,只不過數據最終存儲在hdfs上。而且sql最終都被翻譯成mapreduce而已,當然查詢效率也因此比較低。比較適合數據分析場合,實時性要求不高。訪問hive客戶端方式很多種,今天說
原创 mapreduce去掉重複行
思想 mapreduce可以分爲map和reduce兩個過程,我們知道最終結果是reduce輸出的k,v中的k一定不是重複的,是排序合併之後的。我們就利用這一點在mapper階段,不需要做任何事情,只要將輸入value(一行內容)作爲ke
原创 IO和NIO的比較
我們做過聊天室Socket的項目,知道,傳統的socket IO中,需要爲每個連接創建一個線程,當併發的連接數量非常巨大時,線程所佔用的棧內存和CPU線程切換的開銷將非常巨大。使用NIO,不再需要爲每個線程創建單獨的線程,可以用一個含
原创 Xmind在項目管理中運用
XMind與任務管理 XMind提供了有效的管理工具,但是表現還並不是十分完美。一般我們用它來畫思維導圖,系統的整體組織結構圖(垂直模塊劃分),流程圖等。從2012版本之後增加了許多功能,現在xmind也非常適合用於項目管理
原创 Hive客戶端調用的幾種方式
hive命令指的是hive_home/bin/hive.sh,hive表示用來執行交互式查詢和批量處理的腳本。hive可以直接敲hive命令進入interactive模式,也可以hive -e 執行簡單命令或者hive -f 執行一個sq
原创 java集成阿里大於第三方平臺發送短信驗證碼
閒話不多說,言歸正傳。今天我要分享的是利用阿里大魚實現網站和APP的短信驗證。 阿里大魚開放了很多的消息通知服務,包括短信通知,語音通知等。 阿里大魚的短信發送官方API:https://api.alidayu.com/doc2/