台部落xtiange

第二章總結特徵理解包含了哪些內容第三章總結特徵提升包含什麼第四章總結特徵構造講了什麼第五章總結特徵選擇講了什麼？第六章特徵轉換講什麼？第七章特徵學習講了什麼？

2020-06-23 06:35:10

特徵轉換和前面的特徵選擇和特徵構造都有點像，但是他們還是不一樣的。特徵轉換講的是如何從已有的信息裏面構造出來有用的特徵，如何用更少的特徵來更好的描繪出來我們的模型。這裏就涉及到了降維的概念。但是這和特徵選擇還是不一樣的，特徵選擇是從我們已

2020-06-23 06:35:10

1：分類數據填充。直接使用衆數進行填充，使用value_counts方法。2：處理分類數據。對於無序的分類數據，直接轉化爲虛擬變量。對於有序的分類變量，直接轉化爲label，即有序的數字即可。3：處理數值數據。對於數值數據，我們可以把它

2020-06-23 06:35:10

特徵選擇是在衆多的特徵裏面選擇和我們的變量相關的特徵，在這一章裏面講了很多的方法：第一個是使用相關係數來進行度量，相關係數越高，表明我們的特徵和目標變量越相關。第二個是使用統計學當中的一些知識來進行檢測。sklearn中的SelectKB

2020-06-23 06:35:10

import matplotlib.pyplot as plt from math import log import numpy as np #計算二元信息熵 def entropy(props, base=2): sum =

2020-06-23 06:35:10

決策樹算法的優缺點 copy from sklearn decision treeSome advantages of decision trees are:Simple to understand and to interpret.

2020-06-23 06:35:00

參考文獻中的雙斜槓代表什麼意思？雙斜槓代表專著和其中的析出文獻。格式是：專著的析出文獻//專著。其中析出文獻代表的意思是從專著裏面提取出來的文獻。

2020-06-23 06:34:59

1：選個好名字吧我們對變量進行命名，最主要的原因不是爲了讓機器能夠更好的執行，機器說：我無所謂，只要正確就行。我們是讓人更好的去讀程序。所以，如果一段代碼裏面都是xx， y， i，r之類的變量，那麼過幾天你自己都看不懂了，更不要說別人。

2020-06-23 06:34:59

邏輯迴歸模型在fit的時候需要在內存當中創建很大的矩陣，在預測時候直接將矢量相乘和相加。knn模型在fit的時候把數據存儲下來，基本不消耗時間，在預測的時候消耗時間。不標準化的數據容易影響knn模型。下面是幾種模型的準確率和fit

2020-02-23 22:14:21

首先說一個問題，那就是我們上一章的PCA和LDA都是參數假設的。在PCA中我們最後的結果可以由原始數據通過一定的分解得到，也就是我們的參數是依賴我們的數據的。PCA和LDA都是線性轉換。而特徵學習當中不依賴這一假設，它和上一節的特徵轉換都

2020-02-23 22:14:11

可以參考：常用數學符號的 LaTeX 表示方法前面的話：latex是一個文檔排版系統，它和我們使用的word是一個等級的。而我爲了編輯公式，只使用了latex中的數學模式，這只是latex的一小塊內容，我們平時叫做latex公式，在這一個

2020-02-23 22:14:11

原文來自這裏： Naming Conventions總的規則命名是給人看的，所以應該突出它的使用情況，而不是實現情況。也就是說，命名應該以問題爲導向。命名風格 b 單個小寫字母 B 單個大寫字母 lowercase 小寫情

2020-02-23 22:14:11

這篇博客說的很好，並且實際操作起來也很清晰，簡單，mark一下。畢業論文中的“參考文獻”設置（經驗二）

2020-02-23 22:14:11

graphviz和dot的關係graphviz 是 graph visualization software的縮寫，是由AT&T開源出來的軟件，它使用dot語言來繪製圖形。所以dot是graphviz下面的一個非常得力的工具。安裝grap

2020-02-23 22:14:11

這個文庫裏面很全，mark一下文後參考文獻著錄規則[J] 期刊 [M] 專著 [C]論文集 [D]學位論文 [P]專利比如對於dwork的differential privac 這一篇文章引用論文《面向數據發佈和分析的差分隱私保護》

2020-02-23 22:14:10