原创 AUC(二):AUC線上線下不一致

在實際業務中,經常會出現AUC線上線下不一致的情況。例如,在離線評估中,AUC提升,但線上指標下降。這篇文章參考2013年KDD論文《Predictive Model Performance: Offline and Online E

原创 AUC(一):AUC與Mann–Whitney U test

在算法面試中,常常會被一個問題AUC的物理含義是什麼。本文參考論文1,介紹一下AUC的物理含義。 概念 在二分類模型中,預測值ppp表示事件發生的概率。對於分類任務,需要給出一個閾值(threshold)來判別哪些任務是正例、哪些是負

原创 代碼(二) 手鍊有m個珠子共n種顏色

題目一 一個手鍊有m個珠子共n種顏色,找出包含n種顏色的最短連續片段。例如手鍊[1,2,2,2,2,2,2,0],它的最短連續片段數爲3。 暴力破解 遍歷所有可能性,時間複雜度O(mn2)O(mn^2)O(mn2) 方法一 使用雙指針

原创 代碼(一) 進制轉換

背景 總結所有進制轉化問題 十進制轉二十六進制 問題描述 在Excel中,列的名稱是這樣一個遞增序列:A、B、C、…、Z、AA、AB、AC、…、AZ、BA、BB、BC、…、BZ、CA、…、ZZ、AAA、AAB…。我們需要將上述列名序列

原创 Lookalike(一):Lookalike技術調研

背景 在線廣告中,Lookalike能夠幫助廣告主高效的找到潛在用戶。廣告主上傳少量的種子用戶,Lookalike系統利用機器學習拓展出與種子用戶相似的用戶。例如,某APP希望增加激活用戶。它可將已有用戶作爲種子,進而計算出相似用戶。

原创 fastText(二):微博短文本下fastText的應用(一)

衆所周知,微博中的內容以短文本居多,文本內容隨意性極強,這給建模增加了很大的難度。針對這一問題,這裏分享一下fastText在微博短文本的應用。 任務目標 簡單介紹一下整個任務的目標:給微博內容打上標籤,例如美妝、寵物用品等。這類問題可以

原创 fastText(三):微博短文本下fastText的應用(二)

上一篇講到,fastText在訓練數據中過擬合的問題。接下來將介紹一些提高fastText泛化能力的嘗試。 模型泛化 使用過fastText的人,往往會被它的很多特性徵服,例如訓練速度、兼具word embedding和分類等。但是正如一

原创 python(三):Python3—UnicodeEncodeError 'ascii' codec can't encode characters in position 0-1

環境 >>> import sys >>> print(sys.version) '3.6.0 |Anaconda 4.3.1 (64-bit)| (default, Dec 23 2016, 12:22:00) \n[GCC 4.4.7

原创 6.信息論(一):信息量、熵和最優編碼

前言 信息論是由克勞德·香農發展,用來找出信號處理與通信操作的基本限制,如數據壓縮、可靠的存儲和數據傳輸等。自創立以來,已被應用多個領域,例如自然語言處理(NLP)、機器學習等領域。 定長編碼(Block Codes) 讓我們從一個例子開

原创 fastText入門

簡介 fastText是Facebook AI Research在2016年提出的文本分類和詞訓練的工具。它最大的特點:模型非常簡單,訓練速度快,並且能夠達到與深度學習旗鼓相當的精度。 最近在做一個給微博內容分類的項目,主要目的是給微博打

原创 機器翻譯(一):BLEU(bilingual evaluation understudy)

簡介 BLEU1(bilingual evaluation understudy)最早由IBM提出,用來評價翻譯質量,該評價指標重點關注 相同文本下,機器與人翻譯結果的近似程度 即機器譯文與參考譯文的相似程度。 算法 根據第一部分的介

原创 python(二):使用multiprocessing中的常見問題

簡介 在python的解釋器中,CPython是應用範圍最廣的一種,其具有豐富的擴展包,方便了開發者的使用。當然CPython也不是完美的,由於全局解釋鎖(GIL)的存在,python的多線程可以近似看作單線程。爲此,開發者推出了mult

原创 python(一):multiprocessing——死鎖

前言 近年來,使用python的人越來越多,這得益於其清晰的語法、低廉的入門代價等因素。儘管python受到的關注日益增多,但python並非完美,例如被人詬病最多的GIL(值得注意的是,GIL並非python特性,它是在實現Python

原创 tensorflow(一):tf.contrib.seq2seq.GreedyEmbeddingHelper

簡介 最近在用tensorflow搞seq2seq,遇到了不少問題。首先就是tf.contrib.seq2seq和tf.contrib.legacy_seq2seq到底用哪個?查最新版api可以發現tf.contrib.legacy_se