原创 linux虛擬機搭建pyspark環境

搭建linux虛擬機 下載virtualbox,下載地址:https://www.virtualbox.org/wiki/Downloads,然後安裝。 下載centos操作系統,http://isoredirect.centos.o

原创 spark SQL and DataFrame(一)

1. SparkSession 需要使用spark SQL之前需要SparkSession類,可以通過 SparkSession.builder來創建一個SparkSession。如果SparkContext已經存在,SparkSessi

原创 pyspark特徵工程常用方法(一)

本文記錄特徵工程中常用的五種方法:MinMaxScaler,Normalization,OneHotEncoding,PCA以及QuantileDiscretizer 用於分箱 原有數據集如下圖: 1. MinMaxScaler f

原创 pyspark構建簡單模型(RandomForest&LogisticRegression)

本文記錄了用pyspark構建一個簡單的模型的過程。 1. 讀取數據集 from pyspark.sql import SparkSession from pyspark.ml.feature import StringIndexer f

原创 對深度學習卷積操作的理解

本文介紹對了對卷積核、濾波器、通道等概念的理解。 二維卷積 二維卷積就是卷積核(指的是一個小的權值矩陣)在二維輸入數據上滑動遍歷整張圖片,對當前輸入的部分元素進行矩陣乘法,將一個二維矩陣轉換爲另一個二維矩陣,然後將結果輸出,輸出特徵實際上

原创 h2o-genmodel.jar加載模型編譯運行

h2o生成模型 import h2o from h2o.automl import H2OAutoML h2o.init() path = '/Users/huoshirui/Desktop/xyworking/pythonData/d

原创 TVM: End-to-End Optimization Stack for Deep Learning

why TVM 要讓AI芯片支持深度學習架構(如TensorFlow, MXNet, Caffe, and PyTorch,芯片都有自己的指令集(例如彙編,C語言),要將深度學習架構等部署到芯片上就需要將深度學習架構中的這些代碼編譯成芯片

原创 圖像篡改痕跡檢測:Adobe雙流Faster R-CNN網絡

爲了檢測圖像是否被篡改,Adobe在最近的論文中提出了一種雙流Faster R-CNN網絡,對圖像進行端對端的訓練,檢測經過處理圖像中被篡改的區域。 雙流中的一個流是RGB流,用於從RGB圖像輸入中提取特徵,通過對比度差異、不自然邊界等

原创 目標檢測模型二:Fast-R-CNN,ROI池化

1. Fast R-CNN R-CNN需要很多候選區域以提高準確度,但是很多候選區域其實是彼此重疊的,如果我們有2000個候選區域,每一個候選區域都需要獨立的送到CNN中,對於不同的ROI,我們需要提取2000次特徵,效率很低。CNN的特

原创 目標檢測模型一:滑動窗口檢測器,選擇性搜索,R-CNN,邊界框迴歸器

1. 滑動窗口檢測器 滑動窗口檢測器是一種暴力檢測方法,從左到右,從上到下滑動窗口,然後利用分類識別目標。這裏使用不同大小的窗口,因爲一張圖片可能展示從不同距離觀測檢測出不同的目標類型。 滑動窗口從圖像中可能剪切出不同大小的圖像塊,

原创 Spark RDD (一)

1. RDD基本原理 彈性式分佈數據集RDD是Apache Spark的核心,它是一組不可變的JVM(java virtual machine)對象的分佈集,可以執行高速運算。該數據集是分佈式的,基於某種關鍵字該數據集被劃分成若干塊,並且

原创 機器學習的分類

嚴格意義上來說,機器學習可以分爲以下幾類:有監督學習,無監督學習,半監督學習,強化學習。 1. 有監督學習 有監督學習是指在訓練過程中的數據是同時又特徵和標籤的,也就是說模型在訓練過程中是知道正確結果的,模型可以根據標籤爲指導進行參數調整

原创 對梯度下降的理解

在神經網絡以及很多機器學習模型的訓練優化過程中,不可避免的需要用到梯度下降,可以說梯度下降是很多機器學習算法的核心。這篇文章首先介紹了梯度,偏導數等,然後根據一個具體的例子“根據歷史數據來預測當前房價”講解梯度下降及其代碼實現,在實例中使

原创 Spark RDD (二)

在Spark RDD(一)https://blog.csdn.net/katherine_hsr/article/details/80743626中,介紹了RDD的原理,創建RDD和全局作用域和局部作用域,這裏我們介紹一下RDD的操作(O

原创 訓練模型填充空值(fill null)的幾種方法

我們在進行模型訓練時,不可避免的會遇到某些特徵出現空值的情況,下面整理了幾種填充空值的方法 1. 用固定值填充 對於特徵值缺失的一種常見的方法就是可以用固定值來填充,例如0,9999, -9999, 例如下面對灰度分這個特徵缺失值全部填充