原创 hive基礎
hive基礎 1. hive表 a) managed table 託管表 刪除表時,數據也刪除 b) external table 外部表 刪除表時,數據不刪除(更安全)
原创 hadoop基礎操作
hadoop筆記配額管理快照管理 配額管理 // 目錄配額 計算目錄下的所有文件的總個數。如果1,表示空目錄。 $>hdfs dfsadmin -setQuota 1 dir1 dir2 //設置目錄配額 $>hdfs df
原创 mysql
mysql安裝安裝步驟 安裝步驟 注意:以下操作用戶爲root 1.解壓文件 tar -zvf mysql-5.6.33-linux-glibc2.5-x86_64.tar.gz 2.移動文件到/usr/local/mysql m
原创 Hive入門
Hive入門初識hive配置hive,使用win10的mysql存放hive的元數據倉庫對比和內嵌模式的安裝 初識hive 由FackBook開源用於解決海量結構化日誌的數據統計; Hive 是基於 Hadoop 的一個數據倉庫工具
原创 數據結構
數據結構筆記9. 查找 9. 查找
原创 RDD
rdd操作transformersampleaction transformer sample sample(withReplacement, fraction, seed) import org.apache.spark.Spark
原创 kafka學習筆記
kafka學習筆記集羣環境kafka集羣在zk的配置編程error分區與消費者組重新佈局分區和副本,手動再平衡副本kafka支持副本模式通過java API實現消息生產者,發送消息消息消費者flume集成kafka 集羣環境 選擇10
原创 Java基礎
JAVA基礎)Java alternativesIO流的分類examplesTestFileInputStreamTestFileOutputStream Java alternatives update-alternatives -
原创 Spark Programming Guide
Spark Programming Guidejava^ wordcount^ UpdateStateByKeyWordCountscalawordcount java ^ wordcount package streaming.j
原创 spark-submit
spark-submitstandalone standalone [root@master106 streaming]# cat standalone.sh /home/yk/spark/bin/spark-submit \ --
原创 決策樹(decision tree)(一)——構造決策樹方法
決策樹(decision tree)(一)——構造決策樹方法 說明:這篇博客是看周志華老師的《機器學習》(西瓜書)的筆記總結,雖然自己寫了很多總結性文字包括一些算法細節,但博客中仍有部分文字摘自周老師的《機器學習》書,僅供學習交
原创 Random forest源碼分析
隨機森林源碼分析參數介紹 參數介紹 def run( input: RDD[LabeledPoint], strategy: OldStrategy, numTrees: Int,
原创 IDEA console 過濾 Info
將spark jar包下的/org/apache/spark/log4j-defaults.properties文件複製一份; 放到Intellij IDEA的/src/main/resources/路徑下; 重命名爲log4j.pr
原创 DecisionTreeExample學習筆記
DecisionTreeExample運行程序 運行程序 運行程序需求加參 1. 添加輸入數據集路徑 2. $SPARK_HOME/data/mllib/sample_libsvm_data.txt上傳到hdfs系統的user/ro
原创 VectorIndexer學習筆記
VectorIndexer學習筆記 val indexer = new VectorIndexer() .setInputCol("features") .setOutputCol("indexed") .setMaxCa