原创 機器學些評價指標NDCG和AUC,KS的計算

1、NDCG NDCG,Normalized Discounted cumulative gain 直接翻譯爲歸一化折損累計增益,可能有些晦澀,沒關係下面重點來解釋一下這個評價指標。這個指標通常是用來衡量和評價搜索結果算法(注意這裏維基百

原创 求無序數組的第K大的數

1、利用快排的思想,只在滿足要求的片段上進行排序,求解,這樣時間複雜度由O(nlogn)變爲O(n)。       按從大到小的進行排序,將大的都放在左邊,經過第一次迭代劃分結束後,樞軸的位置左側均比樞軸原始大,如果樞軸的位置first剛

原创 sigmoid交叉熵和softmax交叉熵的區別

1、tf.nn.softmax_cross_entropy_with_logits原理  要求logits與label形狀一致, 是先對logits做softmax之後, 再與label做交叉熵運算 loss的輸出形狀:形狀爲[batch

原创 tensorflow中的Hooks方法調用順序

  初始化:在創建一個MonitoredSession時,會按順序執行以下操作: 調用[Hooks]列表中每一個Hook的begin()函數 通過scaffold.finalize()完成圖graph的定義 創建會話 用Scaffold提

原创 Jupyter調試tensorflow多模塊代碼技巧

背景:        現在有一個main模塊,main模塊引用了不同文件夾下的其他模塊,如何在jupyter下快速調試。 解決辦法: 1、將main,引用的其他模塊,可以作爲單獨的cell,複製進去,然後從main入口,run all。

原创 利用tensorflow的VocabularyProcessor增量更新詞彙表

1、背景 在初版模型,基於訓練數據集,利用VocabularyProcessor構建了詞彙表,存儲文件爲old_vocab.pickle。在以後的增量更新中 如何把已經保存的上版詞彙加載上,同時加入增量中的新詞彙,最終形成一版新的詞彙。而

原创 sklearn的svc參數總結及cross_validation

1、svc參數的說明 SVC參數解釋 (1)C: 目標函數的懲罰係數C,用來平衡分類間隔margin和錯分樣本的,default C = 1.0; (2)kernel:參數選擇有RBF, Linear, Poly, Sigmoid, 默認

原创 scrapy 中解決 xpath 中的中文編碼問題

1、問題描述:       實現定位<h2>品牌</h2>節點       brand_tag = sel.xpath("//h2[text()= '品牌']")       報錯:ValueError: All strings must

原创 python正則表達式學習

Python正則表達式 正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配。 Python 自1.5版本起增加了re 模塊,它提供 Perl 風格的正則表達式模式。 re 模塊使 Python 語言擁

原创 Light-lda部署安裝過程

一、下載light-lda源碼 1、wget  https://github.com/Microsoft/lightlda 2、unzip lightlda-master.zip  ,cd lightlda-master 3、修改 bui

原创 Scrapy+splash抓取js生成的數據

一、python、lua、js間參數傳遞原理 抓取過程是python調用splash的lua腳本,lua中又調用了js代碼實現相關頁面內容的提取及js動作的模擬。在python中通過meta的splash中的args設置python將要傳

原创 關於scrapy網絡爬蟲的xpath書寫經驗總結

        藉助於scapy的爬蟲框架,能方便實現低網絡數據的爬取,其中xpath如何寫法,對元素的定位在爬取過程中起着至關重要的作用。以下是對xpath寫法的一些經驗: (1)優先遵循“自底向上”原則,即從所要爬取的字段節點出發,層

原创 mysql數據庫備份

#!/bin/bash curDir=$(cd `dirname $0`; pwd) cd $curDir today=`date +"%Y%m%d

原创 linux中shell截取字符串方法總結

shell中截取字符串的方法有很多中,可以分爲兩大類。第一種獲取特定的字符或字符串的左邊或者右邊的字字符串,java中實現需要先用indexOf來確定特定字符串的位置,然後再用substring來獲取結果;第二種類似java中的subs

原创 tensorflow讀取數據的方式

1、第一種方式通過佔位符feed_dict的方式讀入; 2、通過dataset的方式讀入: 1)導入數據:從一些數據中創建一個Dataset實例; 2)創建一個迭代器:通過使用創建的數據集來製作一個迭代器實例迭代遍歷數據集; 3)使用數據