附註:本文使用的jar包是tm-extractors-0.4的jar包(麻煩自己自行搜索並下載),地址稍後再補上來
/**
* 讀取隱私協議文檔內容
*
* @return
*/
private String showContent() {
String content = "";
try {
AssetManager manager = getAssets();
InputStream inputStream = manager.open("help.doc");
WordExtractor extractor = new WordExtractor();
content = extractor.extractText(inputStream);
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
return content;
}
但是本地使用的是WPS,而非Microsoft Office,雖然都是doc格式,但是程序運行的時候,會報錯:
org.textmining.text.extraction.FastSavedException: Fast-saved files are unsupported at this time
解決方法:使用office打開文檔,然後保存下,關閉,即可
(這個問題有點坑)
**************************這裏以2007版以前的word文檔 作爲分割線*********************************************
第二部;使用POI讀取Word文檔
(待補充)