原创 python安裝及加載gensim

通過pip安裝報錯 pip install gensim 鏡像節點太慢了,換個鏡像節點就好了 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim 安裝

原创 “西遊記之大聖歸來”短評主題分析-Latent Dirichlet Allocation

功能 輸出影評主題; 輸出每份評論在各個主題上的權重分佈。 工具 python2 spark2.0.2 引言 在機器學習中,LDA是兩個常用模型的簡稱:線性判別分析(Linear Discriminant Analysi

原创 hbase--如何開啓hbase的thrift?

python用happybase連hbase取數時,需要開啓thrift,開啓方法: 在xshell登錄到hbase的主節點; 用jps命令查看是否開啓; 如果沒有,則開啓thrift:`hbase thrift start 關

原创 命名實體識別學習筆記(會一直更新)

把自己看過的資料鏈接記在這裏,方便以後自己查閱: CRF Layer on the Top of BiLSTM BiLSTM-CRF模型做基於字的中文命名實體識別

原创 “劉知遠實驗室”的關係抽取實驗復現

最近在做文本的關係抽取,看了一篇論文(NRE論文總結:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classificatio

原创 “西遊記之大聖歸來”關鍵詞提取-textrank

功能 輸出文本關鍵詞以及熱度值 工具 python2 spark2.0.2 數據集 兩個字段(評論人,評論內容),480條短評; 結果 引言 textrank是一個基於詞共現的算法,目前最新的spark2.2.1的

原创 實體標註工具

功能:文本實體標註,用於做ner nre等的訓練測試集; 工具:python2 輸入: 輸出: 腳本: #!/usr/bin/python # -*- coding: utf-8 -*- """ @author: @contac

原创 《大聖歸來》影評主題分析-Latent Dirichlet Allocation

功能:1.輸出影評主題 2.輸出每份評論在各個主題上的權重分佈 工具:python2 spark2.0.2 etl #!/usr/bin/python # -*- coding: utf-8 -*- """ @author:

原创 doc2vec方法判斷文本相似度

功能:輸出兩段文本的語義相似度 工具:python2 gensim:version = '3.4.0’ 清洗、分詞詞典構造、去數字、去停用詞 清洗,輸入.txt,一條文本佔一行, 分詞、加載分詞詞典 去數字、停用詞 #

原创 Crf++使用說明

資料 訓練 crf_learn template_file train_file model_file 測試 crf_test -m model_file test_file 參數說明 輸入參數(可選): -f, –freq=IN

原创 PyCharm代碼縮進

整體縮進:鼠標選中代碼塊,按tab鍵。 反向縮進:鼠標選中代碼塊,按shift+tab.

原创 pycharm Tab鍵設置成4個空格

file—>setting,選擇Editor—>python 設置方式: tab size:4 indent:4 continuation indent:8

原创 鏈接記載,方便查找

要換電腦了,之前用到的鏈接一段時間沒用,又忘了,先存放這裏,方便下次使用查找 TOPSIS評價方法 sklearn 翻譯筆記:KNeighborsClassifier python中matplotlib的顏色及線條控制 如果用R進

原创 支持向量機(SVM)理論總結系列.線性可分(附帶R程序案例:用體重和心臟重量來預測一隻貓的性別)

這篇最初也是發在公衆號上的,所以圖片水印部分會由於馬賽克看不清。 名詞解釋 支持向量機中的機:在機器學習領域,常把一些算法看做一個機器,如分類機(也叫作分類器) 問題描述 空間中有很多已知類別的點,現在想用一個面分開他們,並能對未知

原创 svn

鼠標在桌面右擊,小烏龜,進到SVN,提交的時候先update 再commit