原创 Hive聚合函數及採樣函數詳解

 本文主要使用實例對Hive內建的一些聚合函數、分析函數以及採樣函數進行比較詳細的講解。 一、基本聚合函數 數據聚合是按照特定條件將數據整合並表達出來,以總結出更多的組信息。Hive包含內建的一些基本聚合函數,如MAX, MIN,

原创 Hive最新數據操作詳解(超級詳細)

數據操作能力是大數據分析至關重要的能力。數據操作主要包括:更改(exchange),移動(moving),排序(sorting),轉換(transforming)。Hive提供了諸多查詢語句,關鍵字,操作和方法來進行數據操作。

原创 java和scala分別實現TopK

本文是對spark經典例子topK的實現,直接上代碼 1. 實例描述 輸入: 之前做hadoop時hadoop自帶的README.md文件 輸出: (158,) (28,the) (19,to) (18,Spark) (17,and)

原创 基於LR的新聞多分類(基於spark2.1.0, 附完整代碼)

原創文章!轉載請保留原始文章鏈接,謝謝! 環境: Scala2.11.8 + Java1.8.0_112Spark2.1.0 + HanLP1.3.2   完整項目代碼見我的GitHub:https://github.com/yha

原创 [Spark2.0]ML 調優:模型選擇和超參數調優

        本節講述如何使用MLlib提供的工具來對ML算法和Pipline進行調優。內建的交叉驗證和其他工具允許用戶在算法和Pipline中優化超參數。     模型選擇(又名超參數調優)        在ML中一個重要的任務就是模

原创 梯度下降法及其Python實現

梯度下降法(gradient descent),又名最速下降法(steepest descent)是求解無約束最優化問題最常用的方法,它是一種迭代方法,每一步主要的操作是求解目標函數的梯度向量,將當前位置的負梯度方向作爲搜索方向(因爲在該

原创 通俗理解LDA主題模型

聲明:本文轉載自July的CSDN博客,僅作爲知識記錄所用,原文鏈接:http://blog.csdn.net/v_july_v/article/details/41209515 0 前言     印象中,最開始聽說“LD

原创 [Scala函數特性系列]——部分應用函數和柯里化

柯里化是指將原來接收兩個參數的函數變成接收一個參數的函數的過程,新的函數返回一個以原有第二個參數作爲參數的函數。是不是有種被繞暈了的感覺,先別急,先看一個示例:   結果:   這裏可以看出,柯里化函數與多個參數的函數具有相同的功能,

原创 [Spark2.0]Spark SQL, DataFrames 和Datasets指南

綜述         Spark SQL是Spark提供的針對結構化數據處理的模塊。不同於基本的Spark RDD API,SparkSQL提供的接口提供了更多的關於數據和計算執行的信息。在內部,SparkSQL使用這些額外信息完成額外的

原创 基於spark mllib的LDA模型訓練源碼解析

一直想寫一篇關於LDA模型訓練的源代碼走讀,但是因爲個人水平以及時間原因未能如願,今天想起來就記錄了一下源碼走讀過程。有什麼解釋的不太清楚或者錯誤的地方請大家指正。 LDA模型訓練大致經過以下這些步驟: 輸入數據(已轉換爲Vector

原创 基於centos6.7的Ceph分佈式文件系統安裝指南

        Ceph是加州大學Santa Cruz分校的Sage Weil(DreamHost的聯合創始人)專爲博士論文設計的新一代自由軟件分佈式文件系統。自2007年畢業之後,Sage開始全職投入到Ceph開 發之中,使其能適用於

原创 【問題跟蹤】KryoException: java.io.IOException: No space left on device

今天在對LDA進行不同參數訓練模型,記錄其avglogLikelihood和logPerplexity,以便判斷模型訓練是否收斂時,產生了一個令人極度崩潰的事兒:程序在辛辛苦苦跑了7.3h後...掛了!證據如下: 早上一來看這張圖,好像

原创 JUnit簡單使用教程

JUnit簡介JUnit是由 Erich Gamma和Kent Beck編寫的一個迴歸測試框架(regression testing framework)。JUnit測試是程序員測試,即所謂白盒測試,因爲程序員知道被測試的軟件如何(How

原创 Hadoop HA——namenode無法啓動問題解決

 今天按照之前《Hadoop2.6.0 + zookeeper集羣環境搭建 》一文重新搭建了Hadoop2.7.2+zookeeper的HA,實現namenode掛掉後可以自動切換,總體來說還算比較順利。搭建完成後一切正常!但是!第二

原创 spark1.6.0集羣安裝

1. 概述 本文是對spark1.6.0分佈式集羣的安裝的一個詳細說明,旨在幫助相關人員按照本說明能夠快速搭建並使用spark集羣。   2. 安裝環境 本安裝說明的示例環境部署如下: IP 外網IP hostname 備註 1