原创 機器學習性能度量(1):P-R曲線與ROC曲線,python sklearn實現

最近做實驗要用到性能度量的東西,之前學習過現在重新學習並且實現一下。 衡量模型泛化能力的評價標準,這就是性能度量。性能度量反應了任務需求,在對比不同模型的能力時,使用不同的性能度量往往會導致不同的評判結果;什麼樣的模型是好的,不僅取決於算

原创 pandas:數據規範化方法與python實現

這裏就不說爲什麼要做數據規範化了,直接講幾種規範化的方法。 有許多規範化的方法,我們將學習種:最大-最小規範化、分數規範化、小數定標規範化。這裏令是數值屬性,具有個觀測值。 一、原理 1.最大-最小規範化 假設和分別爲屬性的最大值和最小值

原创 pandas: DataFrame在數據處理時一些常用的操作彙總

對自己在數據處理中經常使用卻經常忘記的一些操作彙總。我用的多,大家應該用的也很多,有需要的可以轉載follow。 1.dataframe數據篩選:loc,iloc,ix,at,iat loc:需要用行列的標籤進行索引。 iloc:需要用行

原创 數據結構與算法:已知二叉樹兩種遍歷序列,求第三種遍歷序列

在筆試題目中經常碰到此類題目,已知先序遍歷序列和中序遍歷序列,求後序序列或者已知中序序列和後序序列,求先序遍歷序列。其中若已知先序序列和後序序列,無法唯一確定一棵樹,所以就無法得知中序序列。 1.已知先序遍歷序列和中序遍歷序列,求後序序列

原创 python:else與循環語句聯合用法

我們都知道if else語句,今天看到了一種else的新用法,在此做記錄和大家分享。 Python中,如果一個循環沒有被break語句提前中止,那麼它的可選分支else就會被執行。 else和循環語句的聯合使用,如while和for循環中

原创 數據結構:二分查找python實現

二分查找是分而治之策略很好的例子,這裏給出了兩種實現,其中一種是使用遞歸方式實現。 #二分法 #遞歸查找 def Binary_search(alist, item, first, last): found = False

原创 數據結構:哈希表函數構造和衝突解決方法

哈希表 哈希函數:記錄的存儲位置和它的關鍵字之間建立一個確定的對應關係。 衝突:對不同的關鍵字可能得到同一哈希地址,這種現象稱爲衝突。 哈希函數構造方法 1.直接定址法 取關鍵字或關鍵字的某個線性函數值爲哈希地址,即: 或 2.數字分析法

原创 tensorflow學習筆記:tf.data.Dataset,from_tensor_slices(),shuffle(),batch()的用法

tf.data.Dataset.from_tensor_slices: 它的作用是切分傳入Tensor的第一個維度,生成相應的dataset。 例1: dataset = tf.data.Dataset.from_tensor_slice

原创 tensorflow學習筆記:tf.control_dependencies,tf.GraphKeys.UPDATE_OPS,tf.get_collection

tf.control_dependencies(control_inputs): control_dependencies(control_inputs) ARGS: control_inputs:在運行上下文中定義的操作之前必須執行

原创 機器學習:正則化原理總結

面試中經常被問到正則化,進行了一個總結,懶得打字了,直接上筆記

原创 Pearson相關係數

相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母 r 表示。由於研究對象的不同,相關係數有多種定義方式,較爲常用的是皮爾遜相關係數(PPMCC或PCCs)。 在自然科學領域中,皮爾遜相關係數廣

原创 數據結構:堆python實現與堆排序

一、堆的定義 堆是一種完全二叉樹,有最大堆和最小堆兩種。 最大堆: 對於每個非葉子節點 V,V 的值都比它的兩個孩子大,稱爲 最大堆特性(heap order property) 最大堆裏的根總是存儲最大值,最小的值存儲在葉節點。 最小堆

原创 機器學習:生成式模型與判別式模型

產生式模型(Generative Model)與判別式模型(Discrimitive Model)是分類器常遇到的概念,它們的區別在於: 對於輸入x,類別標籤y: 產生式模型估計它們的聯合概率分佈P(x,y) 判別式模型估計條件概率分佈P

原创 機器學習:正負樣本數據量不平衡處理方法

無偏採樣:意味着真實樣本總體的類別比例在訓練集中得以保持。 在訓練集中正反例數目不同時,令表示正例數目,表示反例數目,觀測機率爲,,我們假設訓練集是真是樣本總體的無偏採樣,因此觀測機率就代表了真實機率。只要分類器的預測機率高於觀測機率就應

原创 python錯誤處理

高級語言通常都內置了一套try...except...finally...的錯誤處理機制,Python也不例外。 try: print('try...') r = 10 / 0 print('result:',