原创 NLP數據增強方法總結及實現

目錄 1、數據增強 2、簡單數據增強(Easy Data Augmentation,EDA) (1)EDA方法 (2)EDA工具使用方法 (3)EDA相關工具 3、回譯 4、基於上下文的數據增強方法 5、數據增強的作用 1、數據增強 數據

原创 基於樹模型的lightGBM文本分類

目錄 1、基於TF的關鍵詞提取 2、根據詞頻將文本轉化爲向量 3、基於樹模型的重要特徵選擇 5、完整代碼實現 6、分類結果 1、基於TF的關鍵詞提取 使用TF詞頻對訓練集clean_data_train進行關鍵詞提取,選取topK個關鍵詞

原创 TextRank算法介紹及實現

目錄 1、PageRank算法 2、TextRank算法 (1)關鍵詞抽取(keyword extraction) (2)關鍵短語抽取(keyphrase extration) (3)關鍵句抽取(sentence extraction)

原创 Linux環境下編譯TensorFlow C++ API和測試方法總結(完美版)

目錄 前言 1、軟件下載 2、不同平臺版本對應要求 3、環境配置 4、配置TensorFlow安裝選項 5、使用bazel進行編譯生成動態庫 6、編譯其他依賴 7、測試一:簡單測試編譯好的TensorFlow C++ API 8、測試二:

原创 Python3讀取和寫入excel表格數據

目錄 一、python讀取excel表格數據 1、讀取excel表格數據常用操作 2、xlrd模塊的主要操作 3、讀取單元格內容爲日期時間的方式 4、 讀取合併單元格的數據 二、python寫入excel表格數據 1、寫入excel表格數

原创 Linux系統編程——基礎命令總結

目錄 一、Linux常用命令 1、常用工具 2、目錄和文件命令 3、安裝和卸載軟件命令 4、壓縮包管理 5、文件屬性、用戶用戶組及查找與檢索命令 6、網絡管理命令 7、其他命令 二、Linux vi/vim常用命令 三、Linux下軟件源

原创 PyTorch基礎學習總結

目錄 一、PyTorch中的Tensor張量 1、Tensor張量 2、Tensor數據類型 3、Tensor常用函數 二、基於PyTorch搭建簡易神經網絡模型 1、簡易神經網絡模型 2、Pytorch自動梯度 3、使用自動梯度和自定義

原创 2020算法筆試題總結

目錄 題目一:找出符合條件的字符串組合 1、題目描述 2、題目解答 題目二:兒童鋪方塊 1、題目描述 2、題目解答 題目三:迴文字符串數目 1、題目描述 2、題目解答 題目一:找出符合條件的字符串組合 1、題目描述 某公司經理希望在聖誕節

原创 Linux環境下的C++編程基礎

目錄 一、工具準備 二、程序的編譯及調試 1、程序的編譯及常用命令 2、gdb調試 三、Makefile文件基礎 1、Makefile介紹 2、Makefile編寫 3、make的運行和退出 一、工具準備 gcc是GNU的C編譯器(GNU

原创 Python3網絡爬蟲——(5)Scrapy爬蟲基礎

目錄 1、Scrapy常用命令行 2、Scrapy爬取內容 3、Scrapy數據提取 4、Scrapy爬取中國大陸明星 5、12306火車站站名爬取 1、Scrapy常用命令行 scrapy startproject QuotesSpi

原创 NLP學習路線總結

目錄 1、自然語言處理概述 2、自然語言處理入門基礎 3、自然語言處理的主要技術範疇 4、自然語言處理基本點 5、特徵處理 6、模型選擇 7、NLP常用工具 8、NLP語言模型 9、快速入門NLP方法 10、自然語言處理學習資料 1、自然

原创 中文文本分類——商品評論情感判別

目錄 1、數據集下載 2、載入數據,做預處理(分詞),切分訓練集與測試集 3、計算訓練集和測試集每條評論數據的向量並存入文件 4、獲得訓練集向量和標籤,測試集向量和標籤 5、訓練SVM模型 6、構建待遇測句子的向量 7、對單個句子進行情感

原创 Python3詞頻統計和排序

1.方法一: # -*- coding: utf-8 -*- from collections import defaultdict import operator #詞集列表 dataset = [ ['my', 'dog', 'h

原创 Python3對股票的收益和風險進行分析

目錄 一、股票收益率 1、股票的日收益率 (1)計算股票的日收益率 (2)繪製股票的日收益率的時間序列圖 (3)日收益率均值計算 (4)日收益率的數據分佈 (5)累計日收益率計算 2、股票的平均年化收益率 二、股票的風險性衡量 1、極差、

原创 NLP常見語言模型總結

目錄 一、詞的離散表示 1、One-hot編碼(獨熱編碼) 2、Bag of Words(BOW,詞袋模型) 3、N-gram語言模型 二、詞的分佈式表示(Distributed Representation) 1、共現矩陣(Co-cur