原创 Feature Engineering Made Easy全書總結

第二章總結 特徵理解包含了哪些內容第三章總結 特徵提升包含什麼第四章總結 特徵構造講了什麼第五章總結 特徵選擇講了什麼?第六章 特徵轉換講什麼?第七章 特徵學習講了什麼?

原创 第六章 特徵轉換講什麼?

特徵轉換和前面的特徵選擇和特徵構造都有點像,但是他們還是不一樣的。特徵轉換講的是如何從已有的信息裏面構造出來有用的特徵,如何用更少的特徵來更好的描繪出來我們的模型。這裏就涉及到了降維的概念。但是這和特徵選擇還是不一樣的,特徵選擇是從我們已

原创 第四章總結 特徵構造講了什麼

1:分類數據填充。直接使用衆數進行填充,使用value_counts方法。2:處理分類數據。 對於無序的分類數據,直接轉化爲虛擬變量。對於有序的分類變量,直接轉化爲label,即有序的數字即可。3:處理數值數據。對於數值數據,我們可以把它

原创 第五章總結 特徵選擇講了什麼?

特徵選擇是在衆多的特徵裏面選擇和我們的變量相關的特徵,在這一章裏面講了很多的方法:第一個是使用相關係數來進行度量,相關係數越高,表明我們的特徵和目標變量越相關。第二個是使用統計學當中的一些知識來進行檢測。sklearn中的SelectKB

原创 二元信息熵 python實現、繪圖

import matplotlib.pyplot as plt from math import log import numpy as np #計算二元信息熵 def entropy(props, base=2): sum =

原创 各種機器學習算法

決策樹算法的優缺點  copy from  sklearn decision treeSome advantages of decision trees are:Simple to understand and to interpret.

原创 論文中的雙斜槓是什麼意思

參考文獻中的雙斜槓代表什麼意思?雙斜槓代表專著和其中的析出文獻。 格式是: 專著的析出文獻//專著。  其中析出文獻代表的意思是從專著裏面提取出來的文獻。

原创 程序中好的命名

1:選個好名字吧我們對變量進行命名,最主要的原因不是爲了讓機器能夠更好的執行,機器說:我無所謂,只要正確就行。 我們是讓人更好的去讀程序。所以,如果一段代碼裏面都是xx, y, i,r之類的變量,那麼過幾天你自己都看不懂了,更不要說別人。

原创 第五章 幾種模型的內存消耗情況對比

邏輯迴歸模型 在fit的時候需要在內存當中創建很大的矩陣,在預測時候直接將矢量相乘和相加。knn模型   在fit的時候把數據存儲下來,基本不消耗時間,在預測的時候消耗時間。不標準化的數據容易影響knn模型。下面是幾種模型的準確率和fit

原创 第七章 特徵學習講了什麼?

首先說一個問題,那就是我們上一章的PCA和LDA都是參數假設的。在PCA中我們最後的結果可以由原始數據通過一定的分解得到,也就是我們的參數是依賴我們的數據的。PCA和LDA都是線性轉換。而特徵學習當中不依賴這一假設,它和上一節的特徵轉換都

原创 latex常用公式總結

可以參考:常用數學符號的 LaTeX 表示方法前面的話:latex是一個文檔排版系統,它和我們使用的word是一個等級的。而我爲了編輯公式,只使用了latex中的數學模式,這只是latex的一小塊內容,我們平時叫做latex公式,在這一個

原创 Python命名規則

原文來自這裏: Naming Conventions總的規則  命名是給人看的,所以應該突出它的使用情況,而不是實現情況。也就是說,命名應該以問題爲導向。命名風格  b  單個小寫字母  B  單個大寫字母  lowercase  小寫情

原创 論文中的交叉引用

這篇博客說的很好,並且實際操作起來也很清晰,簡單,mark一下。畢業論文中的“參考文獻”設置(經驗二)

原创 使用graphviz畫圖

graphviz和dot的關係graphviz 是 graph visualization software的縮寫,是由AT&T開源出來的軟件,它使用dot語言來繪製圖形。所以dot是graphviz下面的一個非常得力的工具。安裝grap

原创 文後參考文獻著錄規則 GB/T 7714-2005

這個文庫裏面很全,mark一下文後參考文獻著錄規則[J] 期刊 [M] 專著  [C]論文集  [D]學位論文  [P]專利比如對於dwork的differential privac 這一篇文章引用論文《面向數據發佈和分析的差分隱私保護》