原创 hadoop join之二

在介紹這個實例之前,請各位參考:http://bjyjtdj.iteye.com/blog/1453410。 reduce side join是一種最簡單的join方式,其主要思想如下:  在map階段,map函數同時讀取兩個文件File

原创 windows系統使用eclipse搭建本地spark的java開發環境

1.pom文件添加依賴: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3

原创 集羣環境下配置hadoop,zookeeper,hbase第一部分

1.本環境採用兩臺linux環境,ip分別爲:192.168.56.101192.168.56.102分別修改兩臺機器的/etc/hosts文件,增加

原创 集羣環境下配置hadoop,zookeeper,hbase第二部分

3.安裝zookeeper,修改配置文件:兩臺機器的zookeeper安裝路徑要相同,切記,切忌!!!1)cp zoo_sample.cfg zoo.

原创 簡述計算樸素貝葉斯的步驟

計算步驟如下: 1.首先計算各個分類的概率; 2.然後計算預測數據的各個特徵在每個分類緯度下的概率; 3.按照分類緯度計算:分類概率*每個特徵概率; 4.選出步驟3中最大的結果即爲所求;

原创 Hotpot Java虛擬機Class對象是在方法區還是堆中

Class對象是存放在堆區的,不是方法區,這點很多人容易犯錯。類的元數據(元數據並不是類的Class對象。Class對象是加載的最終產品,類的方法代碼,變量名,方法名,訪問權限,返回值等等都是在方法區的)纔是存在方法區的。 方法區 在一個

原创 Pulsar Functions 本地開發實戰

1.首先創建一個maven項目,在pom文件中添加以下依賴: <dependency> <groupId>org.apache.pulsar</groupId> <artifactId>pulsar-functions-api</a

原创 java創建對象過程

java創建對象過程如圖所示 類檢查器 虛擬機遇到一條new指令的時候,首先將去檢查這個指令的參數是否能在常量池中定位到這個類的符號引用,並且檢查這個行號引用代碼的類是否被加載過、 解析過、初始化過.如果沒有,則必須先進行相應的類加載過

原创 二分搜索(折半搜索)的實現

public class BinarySearch { public static void main(String[] args) { int[] arr = new int[]{1,2,3,4,5};

原创 插入排序實現

/** * 插入排序,適用於少量數據的排序,時間複雜度O(n2),是穩定的排序算法,原地排序 * * @param a */ public static void insertSort(i

原创 插入排序

/** * 插入排序,適用於少量數據的排序,時間複雜度O(n2),是穩定的排序算法,原地排序 * * @param a */ public static void insertSort(int[]

原创 hadoop之二次排序

mr自帶的例子中的源碼SecondarySort,我重新寫了一下,基本沒變。 這個例子中定義的map和reduce如下,關鍵是它對輸入輸出類型的定義:(java泛型編程) public static class Map extends

原创 使用 Apache Pig 處理數據

Hadoop 的普及和其生態系統的不斷壯大並不令人感到意外。Hadoop 不斷進步的一個特殊領域是 Hadoop 應用程序的編寫。雖然編寫 Map 和

原创 hadoop join之semi join

SemiJoin,也叫半連接,是從分佈式數據庫中借鑑過來的方法。它的產生動機是:對於reduce side join,跨機器的數據傳輸量非常大,這成了join操作的一個瓶頸,如果能夠在map端過濾掉不會參加join操作的數據,則可以大大節

原创 二叉樹的定義、前序遍歷、廣度遍歷

二叉樹類的定義: public class BTree<T> { private T data; private BTree<T> leftChild; private BTree<T> rightChild; public