原创 從極大似然的角度理解 邏輯迴歸

什麼是極大似然估計 最大似然估計就是通過已知結果去反推最大概率導致該結果的參數。 極大似然估計是概率論在統計學中的應用。它提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試

原创 NLP知識整理(下)

機器學習模型 在完成特徵抽取後,我們就將文本型數據轉化成了規範的數字格式數據,可以送入機器學習模型或深度學習模型進行訓練了。如果採用機器學習的方式,比較適合的模型有LR,LinearSVC, NaiveBayse,如果向量的維度不是

原创 NLP知識整理(上)

by 翰林 數據預處理 數據清洗 在拿到文本後需要使用re工具庫來利用正則表達式對文本進行一些數據預處理和數據清洗的操作,目的是去除髒數據,保證數據的規範性和一致性,便於後期處理。 常見的操作有: ①統一計量單位,如將mg,g,kg

原创 科大訊飛AI營銷大賽 CTR預估總結

背景介紹: 科大訊飛AI營銷雲在高速發展的同時,積累了海量的廣告數據和用戶數據,如何有效利用這些數據去預測用戶的廣告點擊概率,是大數據應用在精準營銷中的關鍵問題,也是所有智能營銷平臺必須具備的核心技術。本次大賽提供了訊飛AI營銷雲的海

原创 理解Kaggle神器——Xgboost

題記 Xgboost作爲集成模型的一個代表,一直以優異的性能著稱,很多Kaggle比賽的獲獎者都非常偏愛使用這個模型。然而,這個模型背後的原理,卻比一般的集成模型更爲複雜和難以理解。 這次對Xgboost的推導過程和重點內容做

原创 從極大似然的角度理解 邏輯迴歸 by七月學員 翰林~

題記 相信很多童鞋都跟我一樣,是看着吳恩達老師的視頻開始的機器學習第一課的吧!在邏輯迴歸這一課中吳恩達老師的講解細緻入微,通俗易懂,然而或許是爲了降低學習難度,故意繞開了極大似然估計這個概念。在七月在線學習了一兩月有餘,對機器學習的認