原创 kaggle乾貨

1.Kaggle 基本介紹 Kaggle 於 2010 年創立,專注數據科學,機器學習競賽的舉辦,是全球最大的數據科學社區和數據競賽平臺。在 Kaggle 上,企業或者研究機構發佈商業和科研難題,懸賞吸引全球的數據科學家,通過衆包的方式解

原创 cNN神經網絡的理解

 神經網絡由大量的神經元相互連接而成。每個神經元接受線性組合的輸入後,最開始只是簡單的線性加權,後來給每個神經元加上了非線性的激活函數,從而進行非線

原创 Kaggle--泰坦尼克之災

怎麼做? 手把手教程馬上就來,先來兩條我看到的,覺得很重要的經驗。 印象中Andrew Ng老師似乎在coursera上說過,應用機器學習,千萬不要一上來就試圖做到完美,先擼一個baseline的model出來,再進行後續的分析步驟,一

原创 c++primer5 第一章

1.1 編寫一個簡單的C++程序 1.一個函數的定義包含四部分:返回類型,函數名,形參列表,函數體。 2.當return語句包括一個值時,此返回值的類型必須與函數的返回類型相容。 3.程序所處理的數據都保存在變量中,而每個變量都有自己的類

原创 cs229 part1-part3

1、線性迴歸(Linear Regression)1.1、線性迴歸模型與解決方案考慮下面的情況,這裏給了一個房屋面積和價格的數據表: 並畫出其數據: 這時候我們如何預測其他不同面積的房屋的價格? 方案是利用圖中的點集擬合出一條合理的曲

原创 工程中特徵選擇

一、爲什麼做特徵選擇 提升效果,讓分類更準確和泛化效果更好。奧卡姆剃刀原理告訴我們“若無必要,勿增實體”。特徵的增多會大大增加分類算法求解的搜索空間,大多數訓練算法所需樣本數量隨着不相關特徵數量的增加而顯著增加。除了識別和去除出不相關的特

原创 深度學習解決NLP問題:語義相似度計算

在NLP領域,語義相似度的計算一直是個難題:搜索場景下query和Doc的語義相似度、feeds場景下Doc和Doc的語義相似度、機器翻譯場景下A句子和B句子的語義相似度等等。本文通過介紹DSSM、CNN-DSSM、LSTM-DSSM等深

原创 無監督學習——kmeans

關鍵詞:聚類,K-means,scikit-learn,python 摘要:本文主要介紹聚類、K-means的概念和結果評估,以及使用python進行聚類分析的方法; 要點總結 瞭解無監督學習以及聚類概念; K-means

原创 對比常見機器學習算法之間的區別

機器學習算法太多了,分類、迴歸、聚類、推薦、圖像識別領域等等,要想找到一個合適算法真的不容易,所以在實際應用中,我們一般都是採用啓發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的算法,諸如SVM,GBDT,Adaboost,現在

原创 動態規劃的理解

 對於動態規劃,每個剛接觸的人都需要一段時間來理解,特別是第一次接觸的時候總是想不通爲什麼這種方法可行,這篇文章就是爲了幫助大家理解動態規劃,並通過講解基本的01揹包問題來引導讀者如何去思考動態規劃。本文力求通俗易懂,無異性,不讓讀者感到

原创 阿里雲openMR的 使用

OPEN MR 基本概念 爲了幫助用戶更加安全、便捷的使用 MaxCompute 的 MR 功能,實現更復雜的計算邏輯 。本文檔主要講述 OPEN MR 的開發方法,幫忙用戶更好的開發複雜的 MR 模型 。OPEN MR 用戶只需要關

原创 GBDT + LR模型融合

n)[1],LR是廣義線性模型,與傳統線性模型相比,LR使用了Logit變換將函數值映射到0~1區間[2],映射後的函數值就是CTR的預估值。LR這種線性模型很容易並行化,處理上億條訓練樣本不是問題,但線

原创 Linux下對默認Python版本的切換

當你安裝 Debian Linux 時,安裝過程有可能同時爲你提供多個可用的 Python 版本,因此係統中會存在多個 Python 的可執行二進制文件。一般Ubuntu默認的Python版本都爲2.x, 如何改變Python的默認版本

原创 LSTM原理分析

LSTM理論推導總結 目錄 1.      傳統RNN的問題:梯度的消失和爆發 2.      LSTM對問題的解決方式 3.      LSTM對模型的設計 4.      LSTM訓練的核心思路和推導 5.      近期LSTM的模

原创 Linux常用命令總結

常用指令 ls          顯示文件或目錄      -l           列出文件詳細信息l(list)      -a          列出當前目錄下所有文件及目錄,包括隱藏的a(all) mkdir         創建