使用word2vec模型亂碼不可用的解決方法

今天在利用word2vec訓練模型的時候發現模型不可用。仔細排查了一下,發現是讀寫文件編碼不統一的問題。

try (BufferedReader br = new BufferedReader(new InputStreamReader(
        new FileInputStream(file),"UTF-8"))) {
      String temp = null;
      while ((temp = br.readLine()) != null) {
        String[] split = temp.split(" ");
        trainWordsCount += split.length;
        for (String string : split) {
          mc.add(string);
//          System.out.println("詞語:" + string);
        }
      }
    }

後來在算法訓練工具類learn裏面修改了讀取文件時的編碼(如上)。順利進行後續操作。



發佈了41 篇原創文章 · 獲贊 23 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章