tika

原創

2020-06-01 20:41

Tika是一個內容抽取的工具集合(a toolkit for text extracting)。利用Tika，我們可以獲得文件的實際類型（https://blog.csdn.net/helihongzhizhuo/article/details/90404387 ）、文件的編碼格式（https://blog.csdn.net/helihongzhizhuo/article/details/90401777）、字符串的語言、文件的文本內容。

在當前的2.0.0-SNAPSHOT版本中， Tika提供了對如下文件格式的支持:

PDF - 通過Pdfbox
MS-* - 通過POI
HTML - 使用nekohtml將不規範的html整理成爲xhtml
OpenOffice 格式 - Tika提供
Archive - zip, tar, gzip, bzip等
RTF - Tika提供
Java class - Class解析由ASM完成
Image - 只支持圖像的元數據抽取
XML
Tika的API十分便捷，核心是Parser interface，其中定義了一個parse方法：
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream參數傳遞需要解析的文件流，文本內容會被傳入handler，而元數據會更新至metadata。

可以使用Tika的ParserUtils工具來根據文件的mime-type來得到一個適當的Parser來進行解析工作。或者Tika還提供了一個AutoDetectParser根據不同的二進制文件的特殊格式 (比如說Magic Code)，來尋找適合的Parser。

項目請見：

https://github.com/apache/tika

http://tika.apache.org/

http://tika.apache.org/download.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

從缺陷到創新：質量保障的新視角

1.背景：最近一段時間研發大佬們在積極的治理告警，經過一段時間的治理，現在告警情況已經有了很大的改觀，但難免還有漏網之魚；具體我們可以以下邊一個例子來看：這是一個生產的UMP告警，通過這個告警我們發現XXX這個應用的堆內存使用率

2024-06-07 23:55:01

CI+GPT雙引擎驅動，開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一

京東雲開發者

2024-06-07 23:54:54

Java開發必讀，談談對Spring IOC與AOP的理解

本文分享自華爲雲社區《超詳細的Java後臺開發面試題之Spring IOC與AOP》，作者：GaussDB 數據庫。一、前言 IOC和AOP是Spring中的兩個核心的概念，下面談談對這兩個概念的理解。二、IOC（Inverse o

2024-06-07 22:57:21

Junit4遇上chatGPT

這是一篇適合Java工程師體質的AI開發教程。本教程會教你寫一個簡單的junit4的Rule，該Rule在基於junit4的測試方法失敗後，自動向GPT發送錯誤信息並通過GPT分析得出代碼修改建議。首先向AI問好簡單的通過AI，讓它

2024-06-06 23:55:13

一文搞懂 Spring 循環依賴

這個其實是一個特別高頻的面試題，松哥也一直很想和大家仔細來聊一聊這個話題，網上關於這塊的文章很多，但是我一直覺得要把這個問題講清楚還有點難度，今天我來試一試，看能不能和小夥伴們把這個問題梳理清楚，當然，如果小夥伴們覺得看文章不過癮，松哥也有

2024-06-06 13:11:47

營銷系統黑名單優化：位圖的應用解析

背景營銷系統中，客戶投訴是業務發展的一大阻礙，一般會過濾掉黑名單高風險賬號，並配合頻控策略，來減少客訴，進而增加營銷效率，減少營銷成本，提升營銷質量。營銷系統一般是通過大數據分析建模，在CDP（客戶數據平臺，以客戶爲核心，圍繞數據融

京東雲開發者

2024-06-06 11:54:12

基於阿里雲服務網格流量泳道的全鏈路流量管理（三）：無侵入式的寬鬆模式泳道

作者：尹航在前文《基於阿里雲服務網格流量泳道的全鏈路流量管理（一）：嚴格模式流量泳道》、《基於阿里雲服務網格流量泳道的全鏈路流量管理（二）：寬鬆模式流量泳道》中，我們介紹了流量泳道的概念、使用流量泳道進行全鏈路灰度管理的方案，以及阿里雲服

2024-06-05 21:13:51

iLogtail 2.0 重大升級，端上支持 SPL

作者：太業流式處理語言發展早期流式處理概念： 20 世紀 70 年代，編程語言如 APL 提供了對數組的流式操作，這可以看作是流式處理語法的早期形式。管道（Pipes）概念在 UNIX 系統中的引進使得可以通過命令行將一個命令的

2024-06-05 21:13:43

一文搞懂5種內存溢出案例，內含完整源碼

本文分享自華爲雲社區《10分鐘搞懂各種內存溢出案例！！（含完整源碼，建議收藏）》，作者：冰河。作爲程序員，多多少少都會遇到一些內存溢出的場景，如果你還沒遇到，說明你工作的年限可能比較短，或者你根本就是個假程序員！哈哈，開個玩笑。今天，我

2024-06-05 10:56:55

高效啓動DolphinScheduler工作流：Java URL調用詳解

轉載自牛肉胡辣湯在大數據分析和處理的領域中，DolphinScheduler是一個開源的分佈式工作流調度系統，可以用於調度和管理複雜的工作流任務。本文將介紹如何使用Java中的URL類來調用DolphinScheduler的API，實現啓

2024-06-04 21:21:59

記一次疑似JVM內存泄漏的排查過程

一、背景在日常部門OpsReview過程中，部門內多次遇到應用容器所在的宿主機磁盤繁忙導致的接口響應緩慢，TP99增高等影響服務性能的問題，其中比較有效的解決方案是開啓日誌的異步打印，可以有效避免同步日誌打印在磁盤IO高起的情況下拖慢業

2024-06-04 12:09:32

?* CI+GPT雙引擎驅動，?* 開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一個耗時

2024-06-04 12:09:24

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:39:24

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:37:09

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:34:44

24小時熱門文章

最新文章

最新評論文章