原创 NLP自然語言處理——文本分類之數據集彙總

文本分類數據集彙總名詞解釋一、“達觀杯”文本智能處理挑戰賽數據集二、東方財富網上市公司公告數據集2.1 獲取手段:python網絡爬蟲。具體方法和代碼見我的另一篇博客。2.2 時間區間:2014年——2019年2.3 股票範圍:滬

原创 python網絡爬蟲——使用selenium抓取東方財富網上市公司公告

每日公告數量@TOC 一、數據獲取與預處理 本文從東方財富網上市公司公告頁面獲取滬深A股1991-2019年公告數據,按照數據獲取的先後順序,將數據分爲以下兩個部分一是上市公司公告信息,包括:序號(index)、股票代碼(code

原创 python填坑系列之ERNIE的最大文本長度

paddlehub的預訓練模型ERNIE的最大文本長度max_seq_len,我設置爲1024時報如下錯誤: AssertionError: max_seq_len(1024) should be in the range of

原创 自然語言處理NLP——文本分類之模型建立

一、樸素貝葉斯分類器 樸素貝葉斯分類器是在屬性條件獨立性假設下,基於貝葉斯定理的有監督的機器學習算法。假設分類變量爲yyy,樣本特徵向量爲x1,x2,...,xnx_1,x_2,...,x_nx1​,x2​,...,xn​,則 P

原创 CentOS7下部署paddlepaddle深度學習框架

文章目錄安裝 Centos7二、恢復分區二、安裝Google Chrome瀏覽器Google Chrome瀏覽器安裝教程:三、安裝anaconda四、安裝NVIDIA驅動重點是安裝驅動時必須退出圖形界面具體操作步驟如下:五、安裝C

原创 NLP自然語言處理——文本分類之三大基礎技術

三大基礎基礎技術寫在前面名詞解釋一、 中文分詞1.1 三類分詞方法(1)規則分詞:建立詞庫,匹配切分。匹配切分三大算法(2)統計分詞(3)混合分詞1.2 中文分詞工具:jieba分詞1.2.1 算法簡介jieba.cut()參數1

原创 NLP自然語言處理——文本分類之特徵提取

特徵提取一、詞向量化與文本向量化1、獨熱編碼(One-Hot Encoding)2、詞袋模型(Bag of Words)3、詞頻-逆文檔頻次算法(TF-IDF)TF-IDF的公式4、詞嵌入參考文獻 一、詞向量化與文本向量化 1、獨

原创 CentOS7 Linux引導修復

我的電腦有兩個硬盤分別爲C盤和D盤。我在C盤和D盤先後安裝了windows10和CentOS7。在我嘗試多種修復引導的方法之後,我使用U啓動軟件將windows引導程序強行寫入了D盤,導致D盤的CentOS引導覆蓋掉了。本文主要解

原创 海爾H40E10刷機教程(經驗分享)

刷機教程我會以附件的形式放在文末,下面是關於刷機過程中遇到的一些問題的解答。此外,本文不是廣告僅作學習筆記和經分享之用。 我在實際操作中遇到的坑 1、U盤格式化時沒有FAT32文件格式的選項 Fat32格式不支持單個文件的容量大於

原创 python填坑系列之jupyter notebook將代碼保存爲py文件

遇到同樣問題的朋友,請直接看下面已經跑通的代碼: %%writefile read_datasets.py #一、讀取達觀杯競賽數據 import pandas as pd def read_DC_dataset(filenam

原创 NLP自然語言處理——文本分類之評價指標

文本分類評價指標一、準確率(Accuracy)二、精確率(Precision)三、召回率(Recall)四、F1五、宏平均(macro-averaging)參考文獻 一、準確率(Accuracy) 準確率關注整體效果,只適合均衡的

原创 利用Selenium爬取高考專業分數線——數據介紹及Chromedriver下載和安裝

數據介紹 高考專業分數線搜索結果頁面如下圖所式,搜索結果包含:學校名稱、專業名稱、招生地址、考生類別、錄取批次、平均分、最低分。檢索條件主要有:考生類別、所屬地區等。 下載、安裝Chromedriver Chromedriver

原创 python爬蟲——gbk' codec can't encode character '\ufffd' in position 33986: illegal multibyte sequence

爬取東方方財富網公告時,出現編碼錯誤: gbk’ codec can’t encode character ‘\ufffd’ in position 33986: illegal multibyte sequence 原因是gbk

原创 CentOS7圖形界面與命令界面的相互切換

一、圖形界面切換到命令界面 在圖形界面中打開終端(Terminal),輸入init 3,如下圖: 命令界面切換到圖形界面 (1)進入到命令界面之後,首先登陸root用戶; (2)輸入init 5返回圖形界面。 參考文獻 1、ce

原创 CentOS Linux 調整分區大小

可能會用到的Linux命令及參數 df Linux df命令用於顯示目前在Linux系統上的文件系統的磁盤使用情況統計。 -h, --human-readable 使用人類可讀的格式(預設值是不加這個選項的…) resize2fs