原创 從decision tree到bagging、boosting

本文主要講解決策樹模型,以及基於決策樹模型的bagging、boosting模型。 一、決策樹模型 決策樹模型概覽 下面是一個決策樹的例子 決策樹可以看作是對多維空間的劃分, 上面的二維空間中,橫線條代表以x作爲劃分的fe

原创 序列標註任務中的CRFs和LSTMs

本文先簡要介紹序列標註的經典模型,然後以醫療文本實體識別爲例,來介紹CRF和LSTM的應用。 一、序列標註的經典模型 參考論文 Neural Architectures for Named Entity Recognition

原创 特徵工程——分類變量的處理

分類變量(categorical variables)是機器學習中一類很重要的特徵。所謂分類變量,是指包含固定數量的可能性取值的變量。分類變量的每一個取值代表一個組,或一個類別。他們和順序變量的區別在於,分類變量不同的類別之間的距離是

原创 貝葉斯統計學相關

http://www.xuyankun.cn/2017/05/13/bayes/ https://alexanderetz.com/2015/07/25/understanding-bayes-updating-priors-via

原创 推薦系統優秀論文、博文彙總

論文 Item-Based Collaborative Filtering Recommendation Algorithms https://www.cnblogs.com/gt123/p/3451565.html 論文 D

原创 《美團機器學習實踐》第3章 常用模型

本章主要介紹三種常用的模型,即邏輯迴歸、場感知因子分解機和剃度提升樹。 3.1 邏輯迴歸 3.1.1 邏輯迴歸的原理 邏輯迴歸的loss function爲 代入梯度下降公式爲 優化方法常採用L-BFGS,主要是針對離線批量處理。

原创 《美團機器學習實踐》第2章 特徵工程

2.1 特徵提取 從數學的角度,特徵工程就是將原始數據空間變換到新的特徵空間,所以特徵提取就是對原始數據進行變化的過程。 特徵工程和模型之間存在trade off,即特徵工程如果很複雜,即使用簡單的模型也可以得到不錯的結果。如果特徵工

原创 《美團機器學習實踐》第1章 問題建模

1.1 評估指標 評估指標用於反映模型效果。在預測問題中,要評估模型的效果,就需要將模型的預測結果f(X)f(X)f(X)和真實標註YYY進行比較,評估指標定義爲f(X)f(X)f(X)和YYY的函數。 通常,線下使用的是機器學習評估

原创 論文筆記 Combining Distributed Vector Representations for Words

本文是論文 Combining Distributed Vector Representations for Words的讀書筆記。

原创 概率圖模型

本文主要介紹HMM和CRF兩種模型。 一、HMM模型 我們以序列標註爲例來引入HMM模型。 我們怎麼產生一個句子,方法可以是先根據語法產生一個詞性序列,然後由每個詞性產生一個詞(藉助詞典,這個詞典是詞性到詞的映射,一個詞性對應多個詞)

原创 基於神經網絡模型的釋義識別、語義文本相似性、自然語言推理和問題回答

本文是論文 Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and

原创 huffman樹與huffman編碼

一、huffman樹定義及用途 哈夫曼樹又稱最優二叉樹,是帶權路徑長度(WPL)最短的樹,可以構造最優編碼,用於數據傳輸,數據壓縮等方向 下面是二叉樹與huffman樹的例子 二、概念 路徑:樹中一個結點到另一個結點之間的分支序列構

原创 文本分類方法綜述

本文主要總結文本分類的方法。 文本分類的本質是文本相似性的度量、計算。文本重點介紹五種相似性的度量方法:即TF-TDF,word embedding pooling,textCNN、textRNN模型,attention network

原创 attention模型

參考資料: 1. http://www.deeplearningpatterns.com/doku.php?id=attention 2. https://zhuanlan.zhihu.com/p/37835894 3. Hiera

原创 大型矩陣的ALS分解

原理參考: https://blog.csdn.net/m0_37788308/article/details/78196674?locationNum=9&fps=1 spark實現參考: https://blog.csdn.net