今天開始做畢業設計作品,今天的目標是數據集的獲取,以及對數據集的解析和統計。
數據集:2017NLPCC,訓練集和測試集。
解析沒有出現任何問題,數據集中都有詳細的描述,如果看不懂,可以去谷歌翻譯一下。
第一步,在pycharm中讀取訓練集,統計信息。
遇到問題1:讀取txt一定要指明編碼格式,讀取方式爲r,encoding爲UTF-8
遇到問題2:字符串截取一部分,結果沒有實現,發現數據有點像字典,於是,把字符串直接轉換爲字典,方法eval()
第二步:統計信息如下:
訓練集中,帶摘要的有406472條數據,不帶摘要的有406472條。評估集中,不帶摘要的數據有16536條。