台部落奥卡姆的剃刀

決策樹模型決策樹是一種基本的分類和迴歸方法，本文主要討論用戶分類的決策樹。決策樹模型呈現樹樁結構，在分類問題中，它表示基於特徵對實例進行分類的過程。它可以認爲是if-then的規則的集合也可以認爲是定義在特徵空間與類空間上的條件概率

2019-05-05 17:09:38

1:概念 k近鄰是一種基本分類與迴歸方法。本文只討論分類問題中的k近鄰法。k近鄰法的輸入爲實例的特徵向量，對應於特徵空間的點；輸出爲實例的類別，可以取多類。k近鄰法假設給定一個訓練數據集，其中的實例類別已定。分類時，對新的實例，根據

2019-05-01 00:51:18

Win10 安裝scala並配置環境變量主要步驟：下載scala軟件包解壓到文件夾配置環境變量 1：下載軟件包去官網下載windows環境下的scala安裝包。官網地址：https://www.scala-lang.o

2019-04-24 02:45:20

一：概述感知機（perceptron）是二類分類的線性分類模型，其輸入爲實例的特徵向量，輸出爲實例的類別，取+1和-1兩類。感知機對應於輸入空間（特徵空間）中將實例劃分爲正負兩類的超平面，屬於判別模型。感知機學習旨在求出將訓練數據進

2019-04-17 23:04:03

說明：這是一個maven工程，需要導入相關配置。代碼 package com.HbasePractice.hbase; import org.apache.hadoop.conf.Configuration; import o

2019-04-16 23:43:06

第1章統計學習方法概論高斯於1823年在誤差e1 ,… , en獨立同分布的假定下,證明了最小二乘方法的一個最優性質: 在所有無偏的線性估計類中,最小二乘方法是其中方差最小的！無偏估計是用樣本統計量來估計總體參數時的一種無偏推

2019-04-15 23:30:15

1：Hbase 集羣配置信息及啓動命令集羣配置： Zookeeper集羣3臺 Hadoop集羣3臺 Hbase集羣臺其中，集羣主節點的主機名爲：hd09-01，兩臺從節點主機名分別爲：hd09-02，hd09-03。

2019-04-09 23:06:12

1：Sqoop的import命令數據從mysql中導入到hdfs當中 bin/sqoop import --connect jdbc:mysql://192.168.50.183:3306/sq --username root

2019-03-29 23:12:19

1：壓縮首先打開hive的壓縮功能命令：set hive.exec.compress.intermediate=true; 開啓map端數據壓縮功能命令：set mapreduce.map.output.compress=tr

2019-03-25 23:11:39

現在有一張student表，包含三個字段：s_id，c_id，s_score。目的1：只保留得到s_id爲01，s_score爲80的結果輸入語句： select * from score where case when s_i

2019-03-22 23:17:42

1:定義官網：zookeeper.apache.org 相當於是一個數據庫是一個分佈式協調框架，實現HA 是一個分佈式鎖的管理框架，實現秒殺 2:提供的功能分佈式協調分佈式鎖數據同步（端口：2888）,選舉機

2019-03-17 22:59:22

引言：分佈式的一般設計要想深入學習HDFS就要先了解其設計思想和架構，這樣才能繼續深入使用HDFS或者深入研究源代碼，先從一般的分佈式談起，在宏觀上逐步去探究HDFSDE設計思想和架構實現。分佈式：分佈式是近幾年非常火的技術

2019-03-03 20:46:47

在搭建Hadoop集羣之前，已經在虛擬機上安裝了三臺Linux服務器，並且Linux的IP地址也已經配置好了，所以安裝Linux服務器的過程省略了。本文主要講述如何在此基礎上，逐步搭建Hadoop環境。 **備註：**如果需要相關

2019-02-27 13:42:53

上傳項目到GitHub上，當某個文件大小超過100M時，就會上傳失敗，因爲默認的限制了上傳文件大小不能超過100M。如果需要上傳超過100M的文件，就需要我們自己去修改配置。首先，打開終端，進入項目所在的文件夾；輸入命令：git

2019-02-21 16:44:24

Python 實時向文件寫入數據（附代碼）之前在做數據分析的過程中，需要對數據進行實時的寫入，比如對新生成的數據寫入之前已經生成的txt或csv文件中。現在想想其實很簡單，所以做一個總結。 1：實時向csv文件寫入數據假設

2019-02-19 13:38:16