原创 2020了,你還不會用seaborn?

Seaborn 提到python畫圖,我們第一個想到的庫一定是matplotlib,但是隨着大家眼光的提高,matplotlib畫出的圖漸漸“失寵”了,今天就讓我們來了解一下建立在matplotlib上的繪圖庫——seaborn。   先

原创 seaborn中cmap的全部參數名稱

參數如下,選擇一個即可 Accent, Accent_r, Blues, Blues_r, BrBG, BrBG_r, BuGn, BuGn_r, BuPu, BuPu_r, CMRmap, CMRmap_r, Dark2, Dark2_

原创 瞎聊機器學習——PR曲線、ROC曲線、AUC

ROC曲線 什麼是ROC曲線? ROC曲線經常作爲評估二分類的重要指標,其起源於軍事領域,全稱叫做receiver operating characteristic curve。 ROC曲線是二維平面內的曲線,其橫座標爲假陽性率(FPR)

原创 瞎聊機器學習——多分類的精確率和召回率

我們常用的精確率和召回率通常都用於二分類的問題上,那麼在多分類上應該怎樣去使用這些評價指標呢? 多分類的精確率和召回率 既然精確率和召回率的概念以及計算公式都指向二分類問題,那麼我們不妨將多分類問題轉換爲二分類問題來做。 先來看一下精確率

原创 Tensorflow中常用的卷積函數

卷積函數 (1)計算N維卷積的和 tf.nn.convolution(input, filter, padding, strides=None, dilation_rate=None,name=None,data_format=N

原创 Tensorflow中常用的池化函數

池化函數 在神經網絡中,池化函數一般跟在卷積函數的下一層,池化操作是利用一個矩陣窗口在張量上進行掃描,將每個矩陣窗口中的值通過最大值或者平均值來減少元素的個數,每個池化操作的矩陣窗口大小是由ksize指定的,並且根據步長strid

原创 python自動數據分析——pandas_profiling

pandas_profiling 我們常用pandas中的df.describe()函數去描述數據的情況,但是不能夠直觀的去展示出數據的分佈情況,今天要介紹的這個工具pandas_profiling就是擴展了pandas中的DataFra

原创 R語言使用wordcloud2繪製詞雲

R語言有許多強大的繪圖工具包,本文我們嘗試用wordcloud2包來繪製詞雲。 安裝wordcloud2 在之前安裝R包的時候我們經常使用install.packages來進行安裝,但是通過這種途徑安裝的wordcloud2存在BUG不能

原创 數據分析基礎——R語言(處理缺失值)

進行簡單的數據處理時,我們處理的基本都是完整的數據集,但是實際問題中我們經常會遇到帶有缺失值的數據,處理此類數據也就顯得尤爲重要。 處理缺失值的一般步驟 首先我們列出處理缺失值的一般步驟,對整個流程有一個大致的瞭解。 識別缺失數據; 檢查

原创 數據分析基礎——R語言(圖形初階)

條形圖 條形圖用矩形條來表示數據,條的長度與變量的值成比例,在R語言中可以使用函數barplot()來創建條形圖,可以在條形圖中繪製垂直和水平條,並且每個條形都可以設置成不同的顏色。 R語言中創建條形圖的基本語法是: barplot(H

原创 數據分析基礎——R語言(數據集的創建)

創建數據集 進行數據操作的第一步就是創建數據集,也就是我們通常認知中的輸入數據的操作。數據集通常是由數據構成的一個矩形數組,用行來表示觀測,用列來表示變量。 數據結構 R語言中有許多用於存儲數據的對象類型:標量、向量、矩陣、數組、數據框、

原创 瞎聊機器學習——DBSCAN算法

密度聚類算法 基於密度的聚類算法假設樣本結構能夠通過樣本分佈的緊密程度而決定,以數據集在空間內分佈的稠密程度爲依據進行聚類,即只要一個區域中的樣本密度大於某個閾值,就把它劃入與之相近的簇中。 密度聚類可以克服K-means,BIRCH算法

原创 人人都懂Spark-SQL基礎操作(Scala版)

Spark SQL 簡單的說Spark SQL是spark用來操作結構化和半結構化數據的接口。本文來講述一下它的一些基本操作。 Spark SQL的特性 無縫地將SQL查詢和spark程序混合,與常規的Python/Java/scala代

原创 Spark-RDD 鍵值對的操作(Scala版)

鍵值對RDD是Spark中許多操作所需要的常見數據類型。鍵值對RDD通常用來進行聚合運算,我們一般要先通過一些初始ETL(抽取,轉化,裝載)操作來將數據轉化爲鍵值對形式。 Spark爲包含鍵值對類型的RDD提供了一些專有的操作,這些RDD

原创 瞎聊機器學習——隨機森林(RF)

本文來講述一下機器學習中常見的一種集成學習算法——隨機森林。 隨機森林(Random forest) 隨機森林的定義 隨機森林是一種集成學習算法,也可以說是一種特殊的Bagging算法,隨機森林中將決策樹作爲基分類器放到Bagging中最