實驗記錄(1)

今天開始做畢業設計作品,今天的目標是數據集的獲取,以及對數據集的解析和統計。

數據集:2017NLPCC,訓練集和測試集。

解析沒有出現任何問題,數據集中都有詳細的描述,如果看不懂,可以去谷歌翻譯一下。

第一步,在pycharm中讀取訓練集,統計信息。

遇到問題1:讀取txt一定要指明編碼格式,讀取方式爲r,encoding爲UTF-8

遇到問題2:字符串截取一部分,結果沒有實現,發現數據有點像字典,於是,把字符串直接轉換爲字典,方法eval()

第二步:統計信息如下:

訓練集中,帶摘要的有406472條數據,不帶摘要的有406472條。評估集中,不帶摘要的數據有16536條。

發佈了38 篇原創文章 · 獲贊 16 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章