Java 解析pdf內容

原創

2019-02-01 22:54

pom.xml

        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.4</version>
        </dependency>
        
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>fontbox</artifactId>
            <version>2.0.8</version>
        </dependency>

代碼

 public void pdfTest() {
        try {
            // 是否排序
            boolean sort = false;
            // 開始提取頁數
            int startPage = 1;
            // 結束提取頁數
            int endPage = Integer.MAX_VALUE;
            String content = null;
            PrintWriter writer = null;
            //pdf文本路徑
            String path = "C:\Users\Administrator\Desktop\123.pdf";
            //輸出txt文本路徑
            String target="C:\Users\Administrator\Desktop\123.txt";
            PDDocument document = PDDocument.load(new File(path));
            PDFTextStripper pts = new PDFTextStripper();
            endPage = document.getNumberOfPages();
            System.out.println("Total Page: " + endPage);
            pts.setStartPage(startPage);
            pts.setEndPage(endPage);
            try {
                //content就是從pdf中解析出來的文本
                content = pts.getText(document);
                writer = new PrintWriter(new FileOutputStream(target));
                writer.write(content);// 寫入文件內容
                writer.flush();
                writer.close();
            } catch (Exception e) {
                throw e;
            }finally {
                if (null != document)
                    document.close();
            }
            System.out.println("Get PDF Content ...");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

svn checkout http://svn.apache.org/repos/asf/pdfbox/trunk/examples

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Java 解析pdf內容

Wireshark 安裝+使用（一）

SQL優化教程(詳細)

JAVA項目中發佈WebService服務

藍屏,死機,斷電等突發情況導致word,excel,ppt等文件丟失怎麼恢復

數據分析圖表配色大全，可視化設計走高級路線的一定要看

html頁面字段回顯

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結