原创 大數據面試題

hadoop面試100道收集(帶答案) <div class="article_manage clearfix"> <div class="ar

原创 大數據面試題

hadoop面試100道收集(帶答案) <div class="article_manage clearfix"> <div class="ar

原创 大數據面試題

hadoop面試100道收集(帶答案) <div class="article_manage clearfix"> <div class="ar

原创 Java多線程學習

一、繼承Thread類 /** *@functon 多線程學習 *@author高 *@time 2015.3.9 */ class Thread1 extends Thread{ private S

原创 遞歸算法

      一、基本概念             遞歸算法是一種直接或者間接調用自身函數或者方法的算法。Java遞歸算法是基於Java語言實現的遞歸算法。遞歸算法的實質是把問題分解成規模縮小的同類問題的子問題,然後遞歸調用方法來表

原创 Spark數據讀取格式解析

1.文本文件 在 Spark 中讀寫文本文件很容易。 當我們將一個文本文件讀取爲 RDD 時,輸入的每一行 都會成爲 RDD 的 一個元素。 也可以將多個完整的文本文件一次性讀取爲一個 pair RDD, 其中鍵是文件名,值是文件內容

原创 Spark-mllib特徵轉換算法

Tokenization(分詞器) 算法介紹: Tokenization將文本劃分爲獨立個體(通常爲單詞)。 RegexTokenizer基於正則表達式提供更多的劃分選項。默認情況下,參數“pattern”爲劃分文本的分隔符。或者可以指定

原创 Spark-mllib特徵選擇算法

VectorSlicer 算法介紹: VectorSlicer是一個轉換器輸入特徵向量,輸出原始特徵向量子集。VectorSlicer接收帶有特定索引的向量列,通過對這些索引的值進行篩選得到新的向量集。可接受如下兩種索引 1.整數索引,s

原创 Spark讀取Hbase

object WriteHbase { def main(args: Array[String]): Unit = { //獲取conf val conf=HBaseConfiguration.create()

原创 從新聞數據組中提取TF-IDF特徵

爲了練習特徵提取,我將使用一個非常有名的數據集,叫做20 Newsgroups;這個數據集一般用來文本分類。 1.分析數據內容 查看目錄結構和數據結構 val sc = new SparkContext("local[2]","TF-I

原创 用於數據挖掘的分類算法有哪些,各有何優劣?

作者:Jason Gu 鏈接:https://www.zhihu.com/question/24169940/answer/26952728 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。 訓練集有多大?

原创 二叉樹全集

史上最全 樹是一種比較重要的數據結構,尤其是二叉樹。二叉樹是一種特殊的樹,在二叉樹中每個節點最多有兩個子節點,一般稱爲左子節點和右子節點(或左孩子和右孩子),並且二叉樹的子樹有左右之分,其次序不能任意顛倒。二叉樹是遞歸定義的,因此,與二

原创 Nutch2.3(二)

/** * Created by topsec on 2017/4/1. */ import java.io.*; import org.apache.hadoop.conf.Configuration; import org.ap

原创 邏輯迴歸算法(二)-----SparkMLlib實現

1.1 邏輯迴歸算法 1.1.1 基礎理論 logistic迴歸本質上是線性迴歸,只是在特徵到結果的映射中加入了一層函數映射,即先把特徵線性求和,然後使用函數g(z)將最爲假設函數來預測。g(z)可以將連續值映射到0和1上。 它與線性迴

原创 Spark-mllib特徵提取算法

Spark MLlib 提供三種文本特徵提取方法,分別爲TF-IDF、Word2Vec以及CountVectorizer, 其原理與調用代碼整理如下: TF-IDF 算法介紹: 詞頻-逆向文件頻率(TF-IDF)是一種在文本挖掘中廣泛