原创 傾向值分析(協變量選擇)

Hirano 和 Imbens 基於預設的臨界t值來設定預測變量的方法 邏輯迴歸:邏輯迴歸雖然帶有迴歸字樣,但是邏輯回歸屬於分類算法。邏輯迴歸可以進行多分類操作,但由邏輯迴歸算法本身性質決定其更常用於二分類。 a.邏輯迴歸公式如

原创 生成模型和判別模型

分類器的一般形式爲決策函數Y=f(X)或者條件概率分佈P(Y|X)。 a. 決策函數Y=f(X):你輸入一個X,它就輸出一個Y,這個Y與一個閾值比較,根據比較結果判定X屬於哪個類別。例如兩類(w1和w2)分類問題,如果Y大於閾值

原创 字符串

線性表與字符串操作的不同 對於線性表,人們經常考慮的是元素與表的關係、元素的插入和刪除。而在考慮字符串時,人們關注的操作不同於一般的線性表,經常需要把字符串作爲一個整體使用和處理,考慮許多以整個串爲對象的操作。 字符串的相關概念

原创 神經網絡

1.設計一個神經網絡時,輸入層與輸出層的節點數往往是固定的,中間層則可以自由指定。 2.神經網絡結構圖中的拓撲與箭頭代表着預測過程時數據的流向。 3.結構圖裏的關鍵不是圓圈(代表“神經元”),而是連接線(代表“神經元”之間的連接)

原创 海量數據處理面試題

數據量太大導致的問題:無法在較短時間內迅速解決,無法一次性裝入內存。 針對時間,我們可以採用巧妙的算法搭配合適的數據結構,如 Bloom filter/Hash/bit-map/堆/數據庫或倒排索引/trie樹 。針對空間,無非

原创 八種常用排序算法(python)

常見排序方法的時間與空間複雜度 平均情況時間複雜度 最壞和最好情況是極端情況,發生的概率並不大。爲了更有效的表示平均情況下的時間複雜度,引入另一個概念:平均情況時間複雜度,全稱叫加權平均時間複雜度或者期望時間複雜度。(引入各自情

原创 機器學習中防止過擬合的處理方法

過擬合概念 過擬合指的是訓練誤差小,測試誤差大,訓練誤差和測試誤差與模型複雜度的關係如下圖所示。 防止過擬合的方法 early stopping、數據集擴增(Data augmentation)、正則化(Regularizati

原创 機器學習中的Bias(偏差),Error(誤差),和Variance(方差)有什麼區別和聯繫?

偏差與方差的區別: Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度,即算法本身的擬合能力。(訓練集) Variance則是“不同的訓練數據集訓練出的模型”的輸出值之間的差異。反應預測的波動情況。(測試集)

原创 python中list, tuple, dictionary, set的底層細節

1.列表實現是基於數組或基於鏈表結構的。 2.列表和元組的區別是顯然的: 列表是動態的,其大小可以該標 (重新分配), 而元組是不可變的,一旦創建就不能修改。 3.字典 a.CPython使用僞隨機探測(pseudo-random

原创 期刊投稿總結

投稿Information Science(期刊)下的 Special Issue on Secure Data Science and Big Knowledge(專題) 確定投稿版式:Guide for Authors(確定

原创 MySQL高效編程

數據庫(Data Base) 數據庫(Data Base,簡稱DB)是長期存儲在計算機內、有組織的、可共享的、統一管理的相關數據的集合。 數據庫管理系統(Data Base Management System / DBMS) 爲

原创 時間與空間複雜度分析

1.時間複雜度: a.實際上,在大多數情況下,我們並不需要區分最好、最壞、平均情況時間複雜度三種情況。像我們上一節課舉的那些例子那樣,很多時候,我們使用一個複雜度就可以滿足需求了。只有同一塊代碼在不同的情況下,時間複雜度有量級的差

原创 利用python實現PSM

1.採用臨近匹配法實現傾向值的匹配https://www.jianshu.com/p/34dd19ebe475 注: a. patsy.dmatrices函數,取一個公式字符串和一個數據集(可以使DataFrame或dict),然

原创 Latex bug修正

LaTeX Font Warning: Font shape `OMS/cmtt/m/n’ undefined–>在\documentclass[runningheads]{llncs}之後加上這行:\usepackage[T1