原创 【評分卡】評分卡入門與創建原則——分箱、WOE、IV、分值分配

本文主要講“變量選擇”“模型開發”“評分卡創建和刻度” 變量分析 首先,需要確定變量之間是否存在共線性,若存在高度相關性,只需保存最穩定、預測能力最高的那個。需要通過 VIF(variance inflation factor)

原创 【特徵工程】一種異常值檢測方法、原理、代碼實現 (基於箱線圖)

先介紹使用到的方法原理,也就是一種異常檢測的方法。 首先要先了解箱線圖。 箱線圖 箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用數據中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大

原创 【數據處理】pandas DataFrame 實現 某列中分隔數據轉成多行 split explode

DataFrame中某列由“逗號”分隔,格式如下。希望轉換後,分隔的數據全部以多行的形式重新展示。 處理前: 處理後: 方法一 轉換代碼如下。 import pandas as pd df = pd.DataFrame([{'

原创 【RNN】理解word2vec中的 Skip-Gram

在處理文字模型的時候,將文字轉化成可以放進模型的數字,最簡單方法是用 one-hot 編碼。但是這種方法有弊端,轉化後的每個詞之間在數字上都是相互獨立的,任何一對詞的one-hot向量的餘弦相似度都爲0,任何詞之間都沒有關係。 G

原创 【算法】理解哈希算法 hash 和常見應用

概念 將任意長度的二進制值串映射爲固定長度的二進制值串,這個映射的規則就是 哈希算法。 通過原始數據映射之後得到的二進制值串就是 哈希值。 要求 從哈希值不能反向推導出原始數據 對輸入數據非常敏感,一個 Bit 修改得到的哈希值

原创 【特徵工程】 離散型變量 映射成 數字

在特徵處理中,有一些特徵裏面的值是一些可分類的字符串,舉個例子: 姓名 學歷 收入 小張 高中 4000-5000元 小王 本科 6000-7000元 小李 碩士 8000-9000元 小趙 本科 600

原创 【數據結構】鏈表 的介紹與python實現 上篇

【數據結構】鏈表的介紹與python實現 上篇 【數據結構】鏈表的介紹與python實現 下篇 本文部分文字圖片引用了極客時間的《數據結構與算法之美》鏈表篇 https://time.geekbang.org/column/

原创 【數據結構】鏈表 的介紹與python實現 下篇

【數據結構】鏈表的介紹與python實現 上篇 【數據結構】鏈表的介紹與python實現 下篇 鏈表上篇簡單介紹了鏈表,這篇用python實現鏈表的基本一些操作。 包括打印鏈表,插入,刪除,查找,反轉。 class Node(

原创 【親身經歷】2019杭州人才引進落戶——詳細流程、地址、所需材料、網上辦事鏈接

補充:目前杭州本科和專科的人才落戶政策也已經放開,與下面的流程和材料應該差距不大,希望本文能幫助大家。 首先說一下整體的辦理感受:完美(先吹一波)。 不管是從服務態度還是辦事效率,好到我都覺得這不是在政府辦事了。大部分事情可以在

原创 curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused 解決方法

問題: 報錯 curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused 解決方法: 參考: https://bbs.

原创 解決xgboost報錯 : ValueError: feature_names mismatch

問題原因 已使用訓練數據完成xgboost模型的訓練,後期應用時,加載完成模型,使用新數據進行預測時報錯。 ValueError: feature_names mismatch,具體如下圖。 導致這個問題原因可能有多種情況,我這

原创 【算法】字符串匹配1 BF算法 RK算法

字符串匹配有多種方法,這裏先講最簡單的兩種算法: BF算法 和 RK算法,複雜度也相對較高。 它們均爲單模式串匹配的算法,也就是一個串跟一個串進行匹配。 BF算法 簡介 Brute Force,暴力匹配算法,也叫樸素匹配算法。 比較簡

原创 【算法】字符串匹配2 BM算法 壞字符規則 好後綴規則 python代碼實現

BM算法, Boyer-Moore,非常高效,是KMP算法的3~4倍。 高能預警,此算法較難。 核心思想 匹配過程其實就是模式串在主串中不停地往後滑動。 當遇到不匹配的字符時,BF和RK算法做法是往後滑動一位,從模式串第一個字符重新匹

原创 【算法】圖的 深度優先搜索 廣度優先搜索 複雜度分析 python代碼實現

深度優先搜索算法和廣度優先搜索算法都是基於“圖”這種數據結構的。 作爲圖的搜索算法,既可用於有向圖,也可用於無向圖,以下均用無向圖講解。 廣度優先搜索 Breadth-First-Search,BFS。 一種“地毯式”層層推進的搜索策

原创 【數據結構】圖的表示與存儲方法 鄰接表 鄰接矩陣

圖是一種非線性表數據結構。 圖中的元素我們就叫作頂點(vertex)。 一個頂點可以與任意其他頂點建立連接關係,這種建立的關係叫作邊(edge)。 跟頂點相連接的邊的條數,叫作頂點的度(degree)。 無向圖 邊沒有方向的圖就叫作“