原创 (5) 李航《統計學習方法》基於Python實現——決策樹

決策樹模型 決策樹是一種基本的分類和迴歸方法,本文主要討論用戶分類的決策樹。決策樹模型呈現樹樁結構,在分類問題中,它表示基於特徵對實例進行分類的過程。它可以認爲是if-then的規則的集合也可以認爲是定義在特徵空間與類空間上的條件概率

原创 (3) 李航《統計學習方法》基於Python實現——K近鄰法

1:概念 k近鄰是一種基本分類與迴歸方法。本文只討論分類問題中的k近鄰法。k近鄰法的輸入爲實例的特徵向量,對應於特徵空間的點;輸出爲實例的類別,可以取多類。k近鄰法假設給定一個訓練數據集,其中的實例類別已定。分類時,對新的實例,根據

原创 Win10 安裝scala並配置環境變量步驟---附圖

Win10 安裝scala並配置環境變量 主要步驟: 下載scala軟件包 解壓到文件夾 配置環境變量 1:下載軟件包 去官網下載windows環境下的scala安裝包。 官網地址:https://www.scala-lang.o

原创 (2) 李航《統計學習方法》基於Python實現——感知機

一:概述 感知機(perceptron)是二類分類的線性分類模型,其輸入爲實例的特徵向量,輸出爲實例的類別,取+1和-1兩類。感知機對應於輸入空間(特徵空間)中將實例劃分爲正負兩類的超平面,屬於判別模型。感知機學習旨在求出將訓練數據進

原创 Hbase-API增刪改查掃描等操作

說明: 這是一個maven工程,需要導入相關配置。 代碼 package com.HbasePractice.hbase; import org.apache.hadoop.conf.Configuration; import o

原创 (1) 李航《統計學習方法》基於Python實現——最小二乘法正則項

第1章 統計學習方法概論 高斯於1823年在誤差e1 ,… , en獨立同分布的假定下,證明了最小二乘方法的一個最優性質: 在所有無偏的線性估計類中,最小二乘方法是其中方差最小的! 無偏估計是用樣本統計量來估計總體參數時的一種無偏推

原创 集羣HBase-shell命令及表操作詳細步驟(附圖)

1:Hbase 集羣配置信息及啓動命令 集羣配置: Zookeeper集羣3臺 Hadoop集羣3臺 Hbase集羣臺 其中,集羣主節點的主機名爲:hd09-01,兩臺從節點主機名分別爲:hd09-02,hd09-03。

原创 Sqoop的數據遷移命令及參數說明

1:Sqoop的import命令 數據從mysql中導入到hdfs當中 bin/sqoop import --connect jdbc:mysql://192.168.50.183:3306/sq --username root

原创 Hive高級優化的各種方法

1:壓縮 首先打開hive的壓縮功能 命令:set hive.exec.compress.intermediate=true; 開啓map端數據壓縮功能 命令:set mapreduce.map.output.compress=tr

原创 SQL篩選兩個字段同時滿足條件的結果

現在有一張student表,包含三個字段:s_id,c_id,s_score。 目的1:只保留得到s_id爲01,s_score爲80的結果 輸入語句: select * from score where case when s_i

原创 Zookeeper基礎內容

1:定義 官網:zookeeper.apache.org 相當於是一個數據庫 是一個分佈式協調框架,實現HA 是一個分佈式鎖的管理框架,實現秒殺 2:提供的功能 分佈式協調 分佈式鎖 數據同步(端口:2888),選舉機

原创 從分佈式角度解讀HDFS運行機制和原理

引言:分佈式的一般設計 要想深入學習HDFS就要先了解其設計思想和架構,這樣才能繼續深入使用HDFS或者深入研究源代碼,先從一般的分佈式談起,在宏觀上逐步去探究HDFSDE設計思想和架構實現。 分佈式: 分佈式是近幾年非常火的技術

原创 安裝Hadoop集羣的準備工作(詳細附圖)

​ 在搭建Hadoop集羣之前,已經在虛擬機上安裝了三臺Linux服務器,並且Linux的IP地址也已經配置好了,所以安裝Linux服務器的過程省略了。本文主要講述如何在此基礎上,逐步搭建Hadoop環境。 **備註:**如果需要相關

原创 修改Git上傳到GitHub的文件大小限制

上傳項目到GitHub上,當某個文件大小超過100M時,就會上傳失敗,因爲默認的限制了上傳文件大小不能超過100M。如果需要上傳超過100M的文件,就需要我們自己去修改配置。 首先,打開終端,進入項目所在的文件夾; 輸入命令:git

原创 Python 實時向文件寫入數據(附代碼)

Python 實時向文件寫入數據(附代碼) ​ 之前在做數據分析的過程中,需要對數據進行實時的寫入,比如對新生成的數據寫入之前已經生成的txt或csv文件中。現在想想其實很簡單,所以做一個總結。 1:實時向csv文件寫入數據 ​ 假設