原创 hive基礎

hive基礎 1. hive表 a) managed table 託管表 刪除表時,數據也刪除 b) external table 外部表 刪除表時,數據不刪除(更安全)

原创 hadoop基礎操作

hadoop筆記配額管理快照管理 配額管理 // 目錄配額 計算目錄下的所有文件的總個數。如果1,表示空目錄。 $>hdfs dfsadmin -setQuota 1 dir1 dir2 //設置目錄配額 $>hdfs df

原创 mysql

mysql安裝安裝步驟 安裝步驟 注意:以下操作用戶爲root 1.解壓文件 tar -zvf mysql-5.6.33-linux-glibc2.5-x86_64.tar.gz 2.移動文件到/usr/local/mysql m

原创 Hive入門

Hive入門初識hive配置hive,使用win10的mysql存放hive的元數據倉庫對比和內嵌模式的安裝 初識hive 由FackBook開源用於解決海量結構化日誌的數據統計; Hive 是基於 Hadoop 的一個數據倉庫工具

原创 數據結構

數據結構筆記9. 查找 9. 查找

原创 RDD

rdd操作transformersampleaction transformer sample sample(withReplacement, fraction, seed) import org.apache.spark.Spark

原创 kafka學習筆記

kafka學習筆記集羣環境kafka集羣在zk的配置編程error分區與消費者組重新佈局分區和副本,手動再平衡副本kafka支持副本模式通過java API實現消息生產者,發送消息消息消費者flume集成kafka 集羣環境 選擇10

原创 Java基礎

JAVA基礎)Java alternativesIO流的分類examplesTestFileInputStreamTestFileOutputStream Java alternatives update-alternatives -

原创 Spark Programming Guide

Spark Programming Guidejava^ wordcount^ UpdateStateByKeyWordCountscalawordcount java ^ wordcount package streaming.j

原创 spark-submit

spark-submitstandalone standalone [root@master106 streaming]# cat standalone.sh /home/yk/spark/bin/spark-submit \ --

原创 決策樹(decision tree)(一)——構造決策樹方法

決策樹(decision tree)(一)——構造決策樹方法 說明:這篇博客是看周志華老師的《機器學習》(西瓜書)的筆記總結,雖然自己寫了很多總結性文字包括一些算法細節,但博客中仍有部分文字摘自周老師的《機器學習》書,僅供學習交

原创 Random forest源碼分析

隨機森林源碼分析參數介紹 參數介紹 def run( input: RDD[LabeledPoint], strategy: OldStrategy, numTrees: Int,

原创 IDEA console 過濾 Info

將spark jar包下的/org/apache/spark/log4j-defaults.properties文件複製一份; 放到Intellij IDEA的/src/main/resources/路徑下; 重命名爲log4j.pr

原创 DecisionTreeExample學習筆記

DecisionTreeExample運行程序 運行程序 運行程序需求加參 1. 添加輸入數據集路徑 2. $SPARK_HOME/data/mllib/sample_libsvm_data.txt上傳到hdfs系統的user/ro

原创 VectorIndexer學習筆記

VectorIndexer學習筆記 val indexer = new VectorIndexer() .setInputCol("features") .setOutputCol("indexed") .setMaxCa