原创 文本相似度十大方法簡要說明

1、餘弦相似性 餘弦(餘弦函數),三角函數的一種。在Rt△ABC(直角三角形)中,∠C=90°,角A的餘弦是它的鄰邊比三角形的斜邊,即cosA=b/c,也可寫爲cosA=AC/AB。餘弦函數:f(x)=cosx(x∈R) 這是一個非常常

原创 關於我使用的分詞工具的總結

目前來說我嘗試的兩大最好用的分詞工具:一個是哈工大的ICTCLAS另外一個就是HANLP這兩個工具對於我來說都是非常好的。在前期主要使用的是ICTCLAS,這個分詞工具現在來說是非常的成熟的。可以進行分詞以及詞性標註。網上現在已經提供很多

原创 CBOW

   本文簡述了以下內容:       神經概率語言模型NPLM,訓練語言模型並同時得到詞表示       word2vec:CBOW / Skip-gram,直接以得到詞表示爲目標的模型           (一)原始CBOW(Con

原创 關於mysql無法單獨輸出數據以及navicat for mysql 的那些坑

之前我用的是mysql5.7.5,但是mysql在這個版本上面加了一個權限,這個權限是保護數據輸出輸入安全的,一般是需要在my.ini裏面增加secure_priv_file來改變輸入輸出權限,之前設置過一次,成功了,但是後來不知道爲什麼

原创 Java學習筆記之Pattern類的用法詳解(正則表達式)

轉自:http://www.cnblogs.com/Lowp/archive/2012/09/22/2698574.html java.util.regex.Pattern (摘自sun主頁) Implements: Seriali

原创 基於用戶畫像對於論文的考慮

       其實用戶畫像是一個很好的東西,但是就是數據不好弄,之前老師給我的選題就是基於海爾數據的用戶畫像。但是更不靠譜的是老師根本沒有辦法給我數據,那麼這個選題就是他媽純扯淡,讓我上哪裏搞用戶的多維度數據?但是如果技術到位的話,就可以

原创 CBOW and Skip-gram model

轉自:https://iksinc.wordpress.com/tag/continuous-bag-of-words-cbow/ 清晰易懂。 Vector space model is well known in informat

原创 關於從mysql中輸出內容的權限設置問題

看到別人的博客中說只有mysql5.7以上的纔有這個權限問題,一來二去調不好於是果斷換成了mysql5.5,但是換成mysql5.5之後卻發現一樣會存在數據讀出權限問題,然後根據網上的方法,將my.ini配置文件加入了權限設置語句。原來用

原创 我的python成長之路

          就拿在anaconda下安裝gensim包來舉個例子: anaconda下載頁面:https://www.continuum.io/downloads         Python的有些模塊在單獨安裝時可能非常麻

原创 當已經安裝了anaconda2可不可以讓anaconda3與2共存

Anaconda 本質上是一個軟件發行版,包含了 conda、Python 等 180 多個科學包及其依賴項。  因爲包含了大量的科學包,Anaconda 的下載文件比較大(約 500 MB),如果只需要某些包,或者需要節省帶寬或存

原创 MATLAB數據矩陣單位化,歸一化,標準化

原博客http://blog.csdn.net/yb536/article/details/41050181點擊打開鏈接 1.數據矩陣單位化 方法一: [plain] view plain copy %%矩陣的列向量

原创 關於IDEA的使用

一、IDEA簡介: IDEA 全稱IntelliJ IDEA,是java語言開發的集成環境,IntelliJ在業界被公認爲最好的java開發工具之一,尤其在智能代碼助手、代碼自動提示、重構、J2EE支持、Ant、JUnit、CVS整合、代

原创 在dos下登錄退出mysq

Windows下使用DOS命令進入MySQL數據庫 桌面左下角windows圖標--搜索框內輸入cmd,結果如圖所示,點擊cmd.exe,或者使用快捷鍵Windows鍵(在鍵盤上有個Windows標誌的按鍵)+R輸入cmd後回車。(圖略

原创 從mysql中導出一列數據到txt

因爲需要用到從師哥哪裏獲取到的mysql的評論數據,由於評論數據涉及到好多種屬性,而我只需要獲取其中的評論內容屬性,對評論內容進行自然語言處理,所以就考慮到了將mysql中的數據導入到txt文件當中進行一系列的操作。 首先:啓動數據庫:n

原创 名詞過濾(正則表達式)

分詞以及詞性標註以後不知道詞語拿來有什麼用。因此就想了半天如何提取裏面的名詞。之前已經寫過一篇《 Java學習筆記之Pattern類的用法詳解(正則表達式) 》 從裏面已經學到了很多的正則表達式,因此也對我後期的研究有了一些啓發。另外