原创 CentOS6.5安裝spark
安裝spark包 1、將spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上傳到/usr/local目錄下。 2、解壓縮spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。
原创 使用idea開發Scala的Wordcount程序並提交到spark集羣中
開發準備,idea,配置了Scala的win10電腦,因爲集羣中的spark是1.6版本,所以需要Scala的版本爲Scala2.10.5 接下來,將spark的包在win10解壓,將lib目錄下的 複製一份到一個不含中文的目錄中,ja
原创 大數據學習之路(三)HDFS2.0
HDFS2.0 HDFS新特性: • NameNode HA • NameN
原创 CentOS6.5安裝hive
安裝hive包 1、將apache-hive-0.13.1-bin.tar.gz使用WinSCP上傳到spark1的/usr/local目錄下。 2、解壓縮hive安裝包:tar -zxvf apache-hive-0.13.1-bin.
原创 spark取一串字的topN
Java: package cn.spark.sparktest; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import or
原创 基於排序機制的Wordcount程序
Java版: package cn.spark.sparktest; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import o
原创 用一個棧實現另外一個棧的排序
題目: 一個棧中的類型爲整形,現在想將該棧從頂到底按從小到大的順序排序,只允許申請一個棧 除此之外,可以申請新的變量,但是不能申請額外的數據結構,如何完成排序。 思路: 設計一個cur變量,存放stack棧
原创 分別用遞歸和非遞歸的方式實現二叉樹先序、中序和後序遍歷
分析: 先序:訪問根節點、先序遍歷左子樹、先序遍歷右子樹 中序:中序遍歷左子樹,訪問根節點,中序遍歷右子樹 後序:後序遍歷左子樹,後序遍歷右子樹,訪問根節點 因此,遞歸實現就很簡單 public class test3 { pu
原创 由兩個棧組成的隊列
題目: 編寫一個類,用兩個棧實現隊列,支持隊列的基本操作(add,poll,peek) 思路: * 棧的特點是先進後出,隊列的特點是先進先出,因此我們只需要 * 定義兩個棧,其中一個作爲壓入棧stackPush,另
原创 在單鏈表和雙鏈表中刪除倒數第K個節點
題目: 分別實現兩個函數,一個可以刪除單鏈表中倒數第K個節點,另一個可以刪除雙鏈表中倒數第K個節點 思路: 如果鏈表爲空或者K值小於1的情況下,直接返回鏈表。否則讓鏈表從頭往後走,沒走一步,K值減
原创 打印兩個有序鏈表的公共部分
題目: 給定兩個有序鏈表的頭指針head1和head2,打印兩個鏈表的公共部分 思路: 因爲是有序鏈表,只需要從倆個鏈表的頭開始判斷 1、當head1小於head2的時候,head1向後移動
原创 劍指offer:找出數組中的重複的數字Java版
題目: 在一個長度爲n的數組裏的所有數字都在 0~n-1的範圍內。數組中某些數字是重複的,但不知道有幾個數字是重複的,也不知道每個數字重複了幾次。請找出數組中任意一個重複的數字。例如:如果輸入長度爲7的數組{2,3,1,0,2
原创 輸入一個整數和一棵二元樹
輸入一個整數和一棵二元樹。 從樹的根結點開始往下訪問一直到葉結點所經過的所有結點形成一條路徑。 打印出和與輸入整數相等的所有路徑。 例如輸入整數22 和如下二元樹 10 / \ 5
原创 spark取一個班級的排名topN
java: package cn.spark.sparktest; import java.util.Arrays; import java.util.Iterator; import org.apache.spark.Spa
原创 使用反射的方式將RDD轉換爲DataFrame
Java: package cn.spark.sql; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.