原创 HIVE配置總結

配置 conf中 vi hive-site.xml 確保hive成功啓動,還需要將hdfs和yarn打開。 分佈式數據庫,多數機器可以在hdfs上創建數據庫 客戶端與服務器 1、前臺運行 (服務端)執行某個hive處於bin/

原创 kaggle COVID-19項目

關於新型冠狀病毒感染的肺炎的研究,研究學者已經發出了大量論文,由kaggle提供的COVID-19的數據集被認爲是蒐集最全的相關論文。該數據集提供了論文網站和論文摘要。 本項目爬取了網頁版的COVID-19論文集(未爬取只提供pd

原创 mapreduce總結(持續更新)

1、map階段是對數據進行提取,輸出迭代器的類型,如果reduce階段有對象的類型,可根據迭代器裏取值,創建對象賦值。 2、reduce進行聚合 典型例子,分組將某一列排序 3、序列化時已經將數據存儲了,在括號外部創建對象,括號內

原创 區間估計的練習題

本博客根據非常好的excel資料而編寫,使用python語言操作,預計使用一週的時間更新完成。需要《非常好的excel資料》word文檔,歡迎發郵件給[email protected],免費發放。這篇博客對應《非常好的excel資

原创 數據挖掘之缺失數據缺失的各種插補算法比較

0前言 代碼請訪問github的個人儲存庫裏下載,喜歡的給個Star喔。 實驗要求:完成插補實驗 實驗工具: 1、excel表格 2、記事本txt文件 3.、pycharm 4、JBPCAfill.jar包 1前期處理 1.2刪除

原创 數據挖掘之擬合優度檢驗

本博客根據非常好的excel資料而編寫,使用python語言操作,預計使用一週的時間更新完成。需要《非常好的excel資料》word文檔,歡迎發郵件給[email protected],免費發放。這篇博客對應《非常好的excel資

原创 創建maven的hadoop項目的步驟及eclipse 的java快捷鍵

1、打開eclipse 2、選擇File–>New–>other 3、 4、 5、添加依賴 打開pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:

原创 牛客網程序AC

** 一、 ** 在一個二維數組中(每個一維數組的長度相同),每一行都按照從左到右遞增的順序排序,每一列都按照從上到下遞增的順序排序。請完成一個函數,輸入這樣的一個二維數組和一個整數,判斷數組中是否含有該整數。 第一次刷牛客網

原创 kaggle COVID-19項目(繼續完善)

關於新型冠狀病毒感染的肺炎的研究,研究學者已經發出了大量論文,由kaggle提供的COVID-19的數據集被認爲是蒐集最全的相關論文。該數據集提供了論文網站。 步驟一、爬取COVID-19相關論文的內容 import pandas

原创 spark之wordcount

python from pyspark import SparkConf, SparkContext #創建SparkConf和SparkContext conf = SparkConf().setMaster("local"

原创 scala

val 不可變 var 可變 建議使用val變量,因爲spark複雜系統中,需要大量網絡傳輸數據,若使用var會擔心值被錯誤更改。 val可自動識別類型 也可自己定義類型 申明多個變量 如果在函數體內遞歸調用函數自身,

原创 數據處理相關

數據集分爲特徵值和目標值 由特徵值得到目標值 對特徵值的處理爲特徵工程 1、缺失值處理 2、重複值的去重 特徵工程的意義:提高對未知數據的預測 字典特徵數據抽取 對字符串轉成數字的, 機器學習算法只能理解 數字類型的 類:sk

原创 對象持久化

一、扁平文件 1、文本文件 二、pickle (用於python特有的類型和python的數據類型間進行轉換) 其可存儲的類型 所有python支持的原生類型:布爾值,整數,浮點數,複數,字符串,字節,None 由任何原生類型組

原创 K近鄰、樸素貝葉斯算法

scikit-learn (sklearn) 官方文檔中文版 K近鄰 K近鄰算法詳解 機器學習:K-近鄰算法(KNN) k近鄰法及kd樹 K-近鄰需要做標準化處理 相似的樣本,特徵之間的值應該都是相近的 K取值影響最終結果 距離公

原创 使用git將代碼文件上傳至github

第一步:建倉庫 創建成功如圖所示 二、下載並安裝git 成功的標誌是任意右擊文件夾,出現Git Bash Here。 三、配置ssh.key 右擊需要上傳的文件夾,點Git Bash Here。 在git.bash控制檯下輸入