原创 【碼農學編曲】血清合成器Xfer Serum

視頻教程:點這裏 1.總覽 安裝:主程序setup.exe -> 音色庫替換默認Presets -> 打開宿主加載 -> 註冊機輸入序列號 如圖Menu按鈕:可調出所有音色 設置完成記得點藍色框“保存”按鈕。   2.Oscillat

原创 【NLP複習】如何解決過擬合?

一、過擬合的原因 主要原因是訓練數據中存在噪音或者訓練數據太少,或訓練集和測試集特徵分佈不一致 根本的原因則是特徵維度(或參數)過多,導致模型完美擬合訓練集,對新數據的預測結果較差 二、如何解決過擬合 simpler model stru

原创 【NLP複習】決策樹ID3/C4.5/CART的區別以及預剪枝、後剪枝

一、決策樹的生成算法有哪些?區別是啥? ID3:由熵增(信息增益)來決定哪個特徵是父節點,哪個特徵需要分裂(選擇屬性時偏向選擇取值多的屬性)。對於一組數據,熵越小說明分類結果越好。熵定義如下: 信息增益 =  entroy(前) - 

原创 【NLP複習】集成學習——Bootstraping、Bagging、Boosting、GBDT、XGBoost

一、Bootstraping、Bagging、Boosting的思想? Bootstraping(自助抽樣法): 從給定訓練集中有放回的均勻抽樣。假設給定的數據集包含d個樣本。 該數據集有放回地抽樣d次,訓練集中沒出現的概率就是d次都未

原创 selenium+Firefox爬蟲下載pdf彈出下載框的終極方案

如題,網上全是用以下方案: fp = webdriver.FirefoxProfile() fp.set_preference("browser.download.folderList", 2) # 0桌面,1默認下載路徑,2自定義路

原创 ASIO Link Pro 聲卡跳線(搭配福克斯特solo聲卡)

一、軟件相關基礎 最上面這四個Speaker IN(軟件播放的聲音)和聲音設置中“錄製”中Mix 01-04相對應: 最下面MIX OUT(聲卡輸出)對應聲音設置“播放”的Speaker 01-04: 真實物理聲卡的兩個硬件輸入(麥克

原创 使用sklearn實現k-means聚類

一、原理   初始化選取n個聚類中心,然後遍歷每個點,算當前點離哪個聚類中心近就屬於哪簇 重新計算各簇點的質心,更新n個聚類中心 重複迭代,直到各個聚類中心位置穩定  二、實現代碼(手寫數字數據集) import matplotl

原创 pyhanlp機構名識別時動態添加自定義詞表(CustomDictionary)

參考:pyhanlp官方Github中的demo  1.加載模型並寫入自定義機構名 from pyhanlp import HanLP, CustomDictionary segment = HanLP.newSegment("crf

原创 Python的os模塊生成目錄結構

生成當前目錄結構 : import os import os.path def dfs_showdir(path, depth): if depth == 0: print("root:[" + path +

原创 Python:os.path獲取當前絕對路徑、父級路徑、判斷文件夾是否存在、創建文件夾

import os # 當前文件所在文件夾的絕對路徑 my_path = os.path.dirname(__file__) print(my_path) # D:/pycharm_profession/Projects-profe

原创 Python:使用map和lambda表達式實現同時操縱list中的每個元素

以下代碼實現: 對urls中每個url前面加上“https://”,返回map並轉成list 

原创 Scrapy爬蟲之下載器中間件(反爬:隨機請求頭、IP代理池)

一、下載器中間件配置隨機請求頭  下載器中間件實現兩個方法:process_request和process_response 能獲取當前瀏覽器請求頭的網站:http://httpbin.org/user-agent 全世界所有瀏覽器

原创 Scrapy爬蟲之scrapy shell、Request和Response對象

進入爬蟲項目內,執行scrapy shell 網址(不進入爬蟲項目也不影響,不過不能獲取項目的settings配置)  測試一下response.xpath  

原创 Scrapy爬蟲之CrawlSpider(繼承自CrawlSpider類 可自動嗅到鏈接)

創建項目後通過以下命令創建爬蟲類:scrapy genspider -t crawl wxapp-union wxapp-union.com 爬蟲繼承自CrawlSpider類,和base類區別就是多了rules和LinkExtract