台部落yhao浩

本文主要使用實例對Hive內建的一些聚合函數、分析函數以及採樣函數進行比較詳細的講解。一、基本聚合函數數據聚合是按照特定條件將數據整合並表達出來，以總結出更多的組信息。Hive包含內建的一些基本聚合函數，如MAX, MIN,

2020-02-22 15:56:27

數據操作能力是大數據分析至關重要的能力。數據操作主要包括：更改(exchange)，移動(moving)，排序(sorting)，轉換(transforming)。Hive提供了諸多查詢語句，關鍵字，操作和方法來進行數據操作。

2020-02-22 15:56:27

本文是對spark經典例子topK的實現，直接上代碼 1. 實例描述輸入：之前做hadoop時hadoop自帶的README.md文件輸出： (158,) (28,the) (19,to) (18,Spark) (17,and)

2020-02-22 15:56:27

原創文章！轉載請保留原始文章鏈接，謝謝！環境： Scala2.11.8 + Java1.8.0_112Spark2.1.0 + HanLP1.3.2 完整項目代碼見我的GitHub：https://github.com/yha

2018-09-05 00:45:49

本節講述如何使用MLlib提供的工具來對ML算法和Pipline進行調優。內建的交叉驗證和其他工具允許用戶在算法和Pipline中優化超參數。模型選擇（又名超參數調優）在ML中一個重要的任務就是模

2018-09-05 00:45:48

梯度下降法（gradient descent），又名最速下降法（steepest descent）是求解無約束最優化問題最常用的方法，它是一種迭代方法，每一步主要的操作是求解目標函數的梯度向量，將當前位置的負梯度方向作爲搜索方向（因爲在該

2018-09-05 00:45:48

聲明：本文轉載自July的CSDN博客，僅作爲知識記錄所用，原文鏈接：http://blog.csdn.net/v_july_v/article/details/41209515 0 前言印象中，最開始聽說“LD

2018-09-05 00:45:47

柯里化是指將原來接收兩個參數的函數變成接收一個參數的函數的過程，新的函數返回一個以原有第二個參數作爲參數的函數。是不是有種被繞暈了的感覺，先別急，先看一個示例：結果：這裏可以看出，柯里化函數與多個參數的函數具有相同的功能，

2018-09-05 00:45:47

綜述 Spark SQL是Spark提供的針對結構化數據處理的模塊。不同於基本的Spark RDD API，SparkSQL提供的接口提供了更多的關於數據和計算執行的信息。在內部，SparkSQL使用這些額外信息完成額外的

2018-09-05 00:45:46

一直想寫一篇關於LDA模型訓練的源代碼走讀，但是因爲個人水平以及時間原因未能如願，今天想起來就記錄了一下源碼走讀過程。有什麼解釋的不太清楚或者錯誤的地方請大家指正。 LDA模型訓練大致經過以下這些步驟：輸入數據（已轉換爲Vector

2018-09-05 00:45:46

Ceph是加州大學Santa Cruz分校的Sage Weil（DreamHost的聯合創始人）專爲博士論文設計的新一代自由軟件分佈式文件系統。自2007年畢業之後，Sage開始全職投入到Ceph開發之中，使其能適用於

2018-09-05 00:45:46

今天在對LDA進行不同參數訓練模型，記錄其avglogLikelihood和logPerplexity，以便判斷模型訓練是否收斂時，產生了一個令人極度崩潰的事兒：程序在辛辛苦苦跑了7.3h後...掛了！證據如下：早上一來看這張圖，好像

2018-09-05 00:45:45

JUnit簡介JUnit是由 Erich Gamma和Kent Beck編寫的一個迴歸測試框架(regression testing framework)。JUnit測試是程序員測試，即所謂白盒測試，因爲程序員知道被測試的軟件如何(How

2018-09-05 00:45:45

今天按照之前《Hadoop2.6.0 + zookeeper集羣環境搭建》一文重新搭建了Hadoop2.7.2+zookeeper的HA，實現namenode掛掉後可以自動切換，總體來說還算比較順利。搭建完成後一切正常！但是！第二

2018-09-05 00:45:45

1. 概述本文是對spark1.6.0分佈式集羣的安裝的一個詳細說明，旨在幫助相關人員按照本說明能夠快速搭建並使用spark集羣。 2. 安裝環境本安裝說明的示例環境部署如下： IP 外網IP hostname 備註 1

2018-09-05 00:45:45