原创 文本情感分類—深度學習模型基本概念

語言的表達 建模環節中最重要的一步是特徵提取,在自然語言處理中也不例外。在自然語言處理中,最核心的一個問題是,如何把一個句子用數字的形式有效地表達出來?如果能夠完成這一步,句子的分類就不成問題了。顯然,一個最初等的思路是:給每個詞語賦

原创 k-means+python︱scikit-learn中的KMeans聚類實現( + MiniBatchKMeans)

之前一直用R,現在開始學python之後就來嘗試用Python來實現Kmeans。  之前用R來實現kmeans的博客:筆記︱多種常見聚類模型以及分羣質量評估(聚類注意事項、使用技巧) 聚類分析在客戶細分中極爲重要。有三類比較

原创 cross_val_score交叉驗證及其用於參數選擇、模型選擇、特徵選擇

內容概要¶ 訓練集/測試集分割用於模型驗證的缺點K折交叉驗證是如何克服之前的不足交叉驗證如何用於選擇調節參數、選擇模型、選擇特徵改善交叉驗證 1. 模型驗證回顧¶ 進行模型驗證的一個重要目的是要選出一個最合適的模型,對於監督學

原创 [Text_Mining]notes_4

Semantic Text Similarity   Applications of semantic similarity -Grouping similar words into semantic concept -As a buil

原创 [Text_Mining]notes_3

Classification Given a set of classes Classification:Assign the correct class label to the given input Examples of Tex

原创 [Text_Mining]notes_1

Text2 = text1.split(‘  ‘ ) [w for w in text2 if w.endswith(‘s’)] Find unique words :  set(text4)  set([w.lower() for w

原创 Lasso Regression

先引入嶺迴歸的概念: 嶺迴歸(英文名:ridge regression, Tikhonov regularization)是一種專用於共線性數據分析的有偏估計迴歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部

原创 拉格朗日對偶

2 拉格朗日對偶(Lagrange duality)      先拋開上面的二次規劃問題,先來看看存在等式約束的極值問題求法,比如下面的最優化問題:              目標函數是f(w),下面是等式約束。通常解法是引入拉格

原创 tensorflow 關於張量 shape 數組

張量的階、形狀、數據類型 TensorFlow用張量這種數據結構來表示所有的數據.你可以把一個張量想象成一個n維的數組或列表.一個張量有一個靜態類型和動態類型的維數.張量可以在圖中的節點之間流通. 階 在TensorFlow

原创 大二秋季學期學習計劃

書單: 1.計算機英語 2.數學之美 3.線性代數及其應用(搭配MIT線性代數公開課) 4.Mind on statistics儘量看 5.head first java 6.算法(第四版) 7.程序員的數學(三冊) 8.linux鳥哥私