原创 【軟件安裝】visio2016

1.Visio 2016自定義安裝與激活教程 附安裝包 https://jingyan.baidu.com/article/db55b609301ea84ba30a2fc1.html 2.kms被windows defender阻

原创 【NER】conlleval使用,生成評價結果

1.下載perl window https://www.activestate.com/products/perl/downloads/ (ps:perl的window的版本有ActiveState Perl,Strawberry

原创 pyhton使用ta-lib進行技術指標分析

一、TA-LIB庫安裝 1.直接使用 pip install Ta-Lib會報錯 2.手動安裝 (1)https://www.lfd.uci.edu/~gohlke/pythonlibs/ 在網址中下載對應python版本的ta-

原创 數據分析

一、異常值是指什麼?請列舉識別連續型變量異常值的方法? 答:異常值是指樣本中的個別值,其數值明顯偏離所屬樣本的其餘觀測值。在數理統計裏一般是指一組觀測值中與平均值的偏差超過兩倍標準差的測定值。 常用的檢驗法有(按優劣次序): (1

原创 【NLP】NO2:中文關鍵詞提取

一、基於TF-IDF提取關鍵詞 import jieba.analyse #withWeight表示是否需要返回關鍵詞權重值 #allowPOS表示指定的詞性 word = " ".join(jieba.analyse.extra

原创 【NLP】NO5:文本聚類

一、主要步驟 語料加載->分詞->去停用詞->抽取詞向量模型特徵->基於tf-idf和word2vec進行kmeans中文文本聚類 import random import jieba import pandas as pd i

原创 【NLP】NO6:隱馬爾可夫HMM和條件隨機場CRF

一、隱馬爾可夫HMM 二、條件隨機場CRF

原创 【NLP】NO1:自然語言處理的完整機器處理流程

參考文章:https://www.jianshu.com/p/b87e01374a65 二、中文自然處理的主要步驟 (1)語料清洗 1.人工去重、對齊、刪除和標註 2.基於規則提取內容、正則表達式匹配 3.根據詞性和命名實體提取

原创 【NLP】NO3:文本可視化

常用可視化圖:詞雲、分佈圖、Document Cards、樹狀圖、網絡圖、力導向圖、疊式圖、Word Tree、地理熱力圖、ThemeRiver、SparkClouds、TextFlow、基於矩陣視圖的情感分析可視化。 前端可視化

原创 【NLP】NO4:文本分類

import pandas as pd import random import jieba import pandas as pd #加載停用詞,txt內容可以隨項目進行改變 stopwords = pd.read_csv('

原创 word中插入代碼

1.打開這個網站 http://www.planetb.ca/syntax-highlight-word 2.將需要插入在word中的代碼完整的複製到該網站提示的文本框內,選擇你的代碼類型,如C,C++,HTML等,並點擊提交。

原创 IOPub data rate exceeded問題解決

1.anaconda prompt中輸入 jupyter notebook --NotebookApp.iopub_data_rate_limit=2147483647 2.其中2147483647可以任意修改

原创 服務器安裝anaconda並本機登錄jupyter

1.下載anaconda3 $ wget https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh 2.安裝,上面的wget指令在哪個目錄下運行anaco

原创 【NLP】中文文本數據處理

一、中文文本處理整體流程 1.獲取數據 2.基於空格分詞 3.數據清洗:無用的標籤、特殊符號、停用詞、低頻詞 4.標準化:歸一化 5.特徵提取:tf-idf,word2vec,使用別人預訓練好的詞向量 6.建模 二、分詞 聯合分

原创 【NLP】詞的表示方式及word embeddings代碼

1.one-hot編碼 給每個詞分配一個數字ID,如“爸爸”=1=[010],“媽媽”=2=[001] 缺點(1)高維度,稀疏(2)詞之間相互獨立,無法表示詞之間的語義 2.分佈式表示 (1)基於矩陣的分佈表示 詞的相似度轉