Amazon 進軍企業內容管理領域，宣佈正式發佈 Textract

原創

2019-06-26 08:04

在最近的一則新聞中，Amazon宣佈正式發佈Amazon Textract，這是一種完全託管的、基於機器學習的服務，它可以從文本和結構化文檔數據中提取內容。使用Amazon Textract，客戶能以自動化的方式處理文檔工作流、索引和目錄等重要信息，以便在下游應用程序中使用這些信息。該服務能夠在幾小時內處理完數百萬個文檔頁面。

Amazon正尋求將智能文檔提取業務推向更大衆的市場，以獲取更豐富的商業成果。Amazon主管機器學習的副總裁Swami Sivasubramanian解釋：

Amazon Textract的強大之處在於，它可以從幾乎任何文檔中精確地提取文本和結構化數據，而不需要任何機器學習經驗。除了與其他AWS服務的集成之外，圍繞Amazon Textract進行開發的多方合作社區，能使客戶從他們的文件集合中獲得更多的實際意義、更高效的操作、更安全合規、更多自動化數據輸入和更快速的商業決策。

Amazon Textract在識別關鍵字段或內容方面，超越了傳統的光學字符識別（OCR）技術。而與之不同的是，可以使用Textract API來提取PDF、圖像、文本和表格等多種文件格式，然後再傳遞給Amazon Comprehend、Amazon Comprehend Medical和Amazon Translate，以更智能的方式提取內容。

從Textract提取的數據採用JSON格式，包括諸如頁碼、節、標籤和數據類型等元數據。之後，內容和元數據都可以加載到數據庫和數據分析服務中，包括 Amazon Elasticsearch Service、 Amazon DynamoDB和Amazon Athena，供會計、審計和合規性審覈等領域的其他應用程序使用。

爲了衡量數據提取過程的準確性，Textract爲它識別出來的每個數據屬性返回一個以百分比表示的置信值。這讓開發人員可以爲不準確之處做出標記，並將此信息傳遞給他人執行進一步驗證。此外，還提供了邊界框座標定位，以確定數據具體是從何處提取的。

Amazon已經擁有一些使用Textract服務的客戶，包括普華永道（PwC）、Healthfirst、Informed Inc、UiPath和《環球郵報》等公司。《環球郵報》利用Textract提高了其記者的工作效率，並從他們此前並未得到充分利用的龐大數據集中，發揮了更大優勢。《環球郵報》數字和數據科學的董事總經理Michael O’Neill解釋：

作爲一家新聞媒體公司，我們依賴於大量PDF文件或來源於掃描的文件，比如FOI（信息自由請求），這些文件的重要信息包含在我們以前無法訪問的表格中。這些文件沒有得到充分利用，因爲記者無法輕鬆訪問這些信息，甚至不知道它們的存在。通過使用Amazon Textract，我們能夠從PDF格式的表格中提取信息，並輕鬆地將數據輸出到CSV中，這樣記者就可以對這些文檔進行搜索查詢，從而輕鬆便捷地訪問這些文檔。這使我們的記者獲取信息的效率提高了十倍。

有關Amazon Textract的更多信息，請參閱其產品附帶文檔。

原文鏈接：

Amazon Enters Enterprise Content Management Space, Announces General Availability of Textract

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Amazon 進軍企業內容管理領域，宣佈正式發佈 Textract

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

微軟正式發佈UI Flows，支持機器人流程自動化

Amazon發佈CLI v2，包含了SSO和交互式特性

Hyperledge發佈Avalon，提高區塊鏈的鏈下處理性能

SAP和微軟深度合作，推出新HANA虛擬機、身份和區塊鏈集成

Truffle和微軟宣佈結爲夥伴關係，爲企業提供區塊鏈開發工具

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結