原创 英文文本分類——電影評論情感判別

目錄 1、導入所需的庫 2、用Pandas讀入訓練數據 3、構建停用詞列表數據 4、對數據做預處理 5、將清洗的數據添加到DataFrame裏 6、計算訓練集中每條評論數據的向量 7、構建隨機森林分類器並訓練 8、讀取測試數據並進行預測

原创 NLTK使用方法總結

目錄 1. NLTK安裝與功能描述 2. NLTK詞頻統計(Frequency) 3. NLTK去除停用詞(stopwords)  4. NLTK分句和分詞(tokenize) 5. NLTK詞幹提取 (Stemming) 6. NLTK

原创 LSTM對股票的收益進行預測(Keras實現)

目錄 一、概述: 二、股票數據準備 三、股票數據預處理 1、數據特徵歸一化(標準化) 2、將數據集轉化爲有監督學習問題 四、股票數據劃分爲訓練集和測試集 五、模型構建及其預測 1、搭建LSTM模型並繪製損失圖 2、預測並反轉數據(反歸一化

原创 PyTorch圖像分類

目錄 一、torch和torchvision 1、torchvision.datasets 2、torchvision.models 3、torchvision.transforms 4、torchvision.utils 二、MNIST

原创 C++正則表達式regex庫使用方法總結

目錄 一、regex庫中常用組件介紹 二、regex庫中常用組件使用 1、regex庫組件使用準備 2、regex_match使用 3、regex_search使用 4、regex_replace使用 5、sregex_iterator使

原创 Bert文本分類(基於keras-bert實現)

目錄 一、Bert 預訓練模型準備 二、Bert 模型文本分類 1、數據準備 2、代碼實現 一、Bert 預訓練模型準備 中文預訓練模型下載      當Bert遇上Keras:這可能是Bert最簡單的打開姿勢      keras-be

原创 NLP中文句子類型判別和分類

目錄 一、中文句子類型主要類別 二、中文句子類型分析 三、將句法分析與正則結合標註句子類型 四、構造模型對標註的句子類型進行訓練和測試 一、中文句子類型主要類別 1、陳述句(statement) 主語爲首(subject_front),例

原创 中文句法分析及LTP使用

目錄 一、中文句法分析內容概述 二、使用LTP實現句法分析 1、LTP基礎 2、pyltp安裝 3、代碼實現 4、LTP標註集參考 今天是1024,首先,祝大家節日快樂!😊😊 ……                             

原创 Linux常用的命令

目錄 一、Linux常用命令 二、Linux vi/vim常用命令 一、Linux常用命令 1、常用工具 (1)Xshell:XShell是一個模塊化模擬器,因爲它提供了許多下拉選項卡。然後,用戶可以單擊這些選項卡以創建完全獨立的窗口,它

原创 算法崗面試知識點總結

目錄 一、機器學習知識點 二、深度學習知識點 一、機器學習知識點 1、交叉熵公式,邏輯迴歸(LR)公式,邏輯迴歸損失函數,SVM的損失函數 2、邏輯迴歸(LR)和線性迴歸的區別 線性迴歸用來做預測,LR用來做分類;線性迴歸是來擬合函數,L

原创 字符串自動校對——2019字節跳動筆試題目

字符串自動校對(修正拼寫錯誤字符串) 題目描述:(1)三個同樣的字母連在一起,一定是拼寫錯誤,去掉一個就好了,比如:helllo->hello;(2)兩對一樣的字母(AABB型)連在一起,一定是拼寫錯誤,去掉第二對的一個字母就好了:比如:

原创 NLP句子相似性方法總結及實現

目錄 1、基於Word2Vec的餘弦相似度 2、TextRank算法中的句子相似性 3、萊文斯坦距離(編輯距離) 4、萊文斯坦比 5、漢明距離 6、Jaro距離(Jaro Distance) 7、Jaro-Winkler距離(Jaro-W

原创 NLP關鍵詞提取方法總結及實現

目錄 一、關鍵詞提取概述 二、TF-IDF關鍵詞提取算法及實現 三、TextRank關鍵詞提取算法實現 四、LDA主題模型關鍵詞提取算法及實現 五、Word2Vec詞聚類的關鍵詞提取算法及實現 六、信息增益關鍵詞提取算法及實現 七、互信息

原创 XGBoost與LightGBM文本分類

目錄 用戶評論情感極性判別 一、數據準備 二、數據預處理 三、文本特徵提取 四、將數據轉換爲DMatrix類型 五、構建XGBoost模型 1、XGBoost模型主要參數 (1)通用參數 (2)Booster參數 (3)學習目標參數 2、

原创 中文自然語言預處理總結

目錄 中文文本預處理總結 1、文本數據準備 2、全角與半角的轉化 3、文本中大寫數字轉化爲小寫數字 4、文本中大寫字母轉化爲小寫字母 5、文本中的表情符號去除(只保留中英文和數字) 6、去除文本中所有的字符(只保留中文) 7、中文文本分詞