原创 Kimball維度建模(事實表技術)

事實表: 1.就是現實中產生的可度量數值都存在一張表中,設計只與現實活動有關,與最終的報表無關。 並且事實表有很多外鍵與維度表相連 2.事實表中的數字度量分爲三種,分別爲可加,半可加,和不可加事實。最有用的是

原创 阿里系大數據產品

1. MaxCompute(ODPS) 相當於Hadoop + Hive,是一個數據倉庫解決方案 0.PB、TB、EB級別完全託管的數據倉庫解決方案 1.也有內部表、外部表 2.也有分區表。 3.也有UDF函數,需依賴Re

原创 Linux I/O網絡模型

Linux內核將所有外部設備都看作一個文件來操作,而對一個一個文件的讀寫操作會調用內核提供的系統命令, 返回一個file descriptor(即fd,文件描述符)。 描述符是一個數字,它指向內核中的一個結構體(文件路徑、數據區等

原创 SVM-拉格朗日乘子法

學習:b站白板推導 公式來源: https://www.yuque.com/bystander-wg876/yc5f72/pdv5ry SVM hard margin 思想是間隔最大化, 即將樣本點都投影到另一個平面,使得投影點之

原创 聯合分佈概率密度函數

定義: 二維隨機變量(X,Y)的分佈函數,或稱爲隨機變量X和Y的聯合分佈函數。 隨機變量X和Y的聯合分佈函數是設(X,Y)是二維隨機變量, 對於任意實數x,y,二元函數:F(x,y) = P{(X<=x) ∩ (Y<=y)} =

原创 Spark-創建執行環境SparkEnv

SparkEnv 構造步驟: 1.創建安全管理器SecurityManager: 主要對權限、賬號進行設置,若用YARN作爲集羣管理器,則需要證書生成secret key登錄。 2.創建基於Akka的分佈式消息系統Acto

原创 Coursera-MachineLearning-NeuralNetwork(2)

Coursera機器學習-吳恩達 上一篇神經網絡只有正向傳播,這次加入反向傳播。 背景:同樣是識別手寫體。 % 1.加載並可視化數據 %% 初始化 clear ; close all; clc %% 設置參數 input_l

原创 MachineLearning-Neural Network與Logistic Regression關係

神經網絡與邏輯迴歸的關係: 邏輯迴歸就是沒有隱含層的神經網絡。 兩個的假設函數都是 h(x) = sigmoid(theta * x) 1.神經網絡: 1.1 爲什麼需要神經網絡 當一個非線性分類,特徵數很大時,使用邏輯

原创 Coursera-MachineLearning-LogisticRegression-Regularization

Coursera機器學習-吳恩達 線性迴歸和邏輯迴歸解決過擬合: 1.減少特徵數量: 1.手動選擇要保留的特徵,剔除一些特徵 2.使用模型選擇算法 2.正則化(Regularization): 1.保留所有特徵,但減少參數

原创 Coursera-MachineLearning-LogisticRegression

Coursera機器學習-吳恩達 Octave 代碼 背景:使用邏輯迴歸預測學生是否會被大學錄取。 % 1.讀取訓練集,並打印正負樣本: data = load('ex2data1.txt'); X = data(:, [1,

原创 Coursera-MachineLearning-LinearRegression

Coursera機器學習-吳恩達 Octave 代碼 % 1.用圖表展示數據: data = load('ex1data1.txt'); % 讀取訓練集數據 X = data(:, 1); % 第一列是城市人口 y =

原创 Coursera-MachineLearning-NeuralNetwork

Coursera機器學習-吳恩達 背景:判別手寫體數字,分別實現邏輯迴歸和神經網絡,並對比正確率 % 1.讀取訓練集,並隨機打印一下 clear ; close all; clc input_layer_size = 400;

原创 Coursera-MachineLearning-LinearRegression-MultipleVariables

Coursera機器學習-吳恩達 % 1.對特徵進行特徵縮放: %首先讀取訓練集數據,有兩列特徵 data = load('ex1data2.txt'); X = data(:, 1:2); y = data(:, 3); m

原创 Kafka-高效原因

Kafka 對於其他日誌分析系統或者消息隊列的優勢: 1.傳統日誌分析系統擅長離線處理日誌信息,並且可擴展。但是對實時無能爲力 2.現有消息隊列能提供實時處理,但大多不支持將未處理數據寫到磁盤上。 Kafka 高效原因: 1

原创 CentOS7 安裝 k8s+docker

1. 安裝Docker-ce --安裝依賴 yum install -y yum-utils device-mapper-persistent-data lvm2 --更改鏡像庫 yum-config-manager --ad