原创 java中棧的管理

棧的定義 棧是一種特殊的線性表,只能在一端進行操作 往棧中添加元素的操作,一般叫做push,入棧 從棧中移除元素的操作,一般叫做pop,出棧(只能移除棧頂元素,也叫做:彈出棧頂元素) 後進先出的原則,Last In First

原创 高光譜Houston數據集

Houston數據集 休斯頓數據集由高光譜圖像分析小組和美國休斯頓大學NSF資助的機載激光測繪中心(NCALM)提供。 數據集最初用於2013 IEEE GRSS數據融合競賽的科學目的。 如何獲得 可以根據條款和條件在此處下載數據

原创 算法的複雜度總結

算法 算法是用於解決特定問題的一系列的執行步驟。 評判算法 一般從以下維度來評估算法的優劣 正確性、可讀性、健壯性(對不合理輸入的反應能力和處理能力) 時間複雜度(time complexity):估算程序指令的執行次數(執行時

原创 大數據MapReduce的原理小結

MapReduce定義 MapReduce是一種分佈式計算模型,由Google提出,主要用於搜索領域,解決海量數據的計算問題. MapReduce是分佈式運行的,由兩個階段組成:Map和Reduce,Map階段是一個獨立的程序,

原创 Hbase 的API調用

Hbase API 類和數據模型之間的對應關係 HBaseAdmin HBaseAdmin提供了一個接口來管理 HBase 數據庫的表信息。它提供的方法包括:創建表,刪 除表,列出表項,使表有效或無效,以及添加或刪除表列族成員等

原创 Hbase的shell調用

進入Hbase shell 進入Hbase shell的操作:輸入命令Hbase shell 常用語法 1. 創建表 語法 create <table>, {NAME => <family>, VERSIONS => <VERSI

原创 HBase調優總結

調優方法 預分區 Pre-Creating Regions(預分區) 默認情況下,在創建HBase表的時候會自動創建一個region分區,當導入數據的時候, 所有的HBase客戶端都向這一個region寫數據,直到這個region

原创 JAVA 中的動態數組

數組 數組是一種順序存儲的線性表,所有元素的內存地址是連續的。 動態數組(Dynamic Array)接口設計 代碼 私有變量成員 /** * 元素的數量 */ private int size; /** *

原创 Hbase集羣搭建總結

注意:HBase集羣建立在hadoop集羣基礎之上,所以在搭建HBase集羣之前需要把Hadoop集羣搭建起來, 搭建步驟 一.搭建Hadoop集羣 參考:hadoop 分佈式集羣搭建 二.安裝zookeeper 參考:zooke

原创 Zookeeper的介紹和搭建

Zookeeper 簡介 Zookeeper是一個高效的分佈式協調服務,可以提供配置信息管理、命名、分佈式同步、集羣管理、數據庫切換等服務。它不適合用來存儲大量信息,可以用來存儲一些配置、發佈與訂閱等少量信息。Hadoop、Sto

原创 大數據的HDFS小結

定義 Hdfs(Distributed File System):分佈式文件管理系統。它是一種允許文件通過網絡在多臺主機上分享的文件系統,可讓多機器上的多用戶分享文件和存儲空間。 特點: 通透性。讓實際上是通過網絡來訪問文件的動

原创 Hive的介紹和搭建

Hive的定義 Hive 是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL ),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡

原创 Hbase過濾器小結

過濾器 HBase 的基本 API,包括增、刪、改、查等。 增、刪都是相對簡單的操作,與傳統的 RDBMS 相比,這裏的查詢操作略顯蒼白,只能根據特性的行鍵進行查詢(Get)或者根據行鍵的範圍來查詢(Scan)。 HBase 不僅

原创 Hive基本語法和使用

Hive 語法 建表語句 第一種常用新建原始表: create [EXTERNAL] table vv_stat_fact ( userid string, stat_date string, tryvv int, sucvv

原创 hbase預分區總結

如果知道hbase數據表的key的分佈情況,就可以在建表的時候對hbase進行region的預分區。這樣做的好處是防止大數據量插入的熱點問題,提高數據插入的效率。 步驟: 1.規劃hbase預分區 首先就是要想明白數據的key是如