Amazon 進軍企業內容管理領域,宣佈正式發佈 Textract

在最近的一則新聞中,Amazon宣佈正式發佈Amazon Textract,這是一種完全託管的、基於機器學習的服務,它可以從文本和結構化文檔數據中提取內容。使用Amazon Textract,客戶能以自動化的方式處理文檔工作流、索引和目錄等重要信息,以便在下游應用程序中使用這些信息。該服務能夠在幾小時內處理完數百萬個文檔頁面。

Amazon正尋求將智能文檔提取業務推向更大衆的市場,以獲取更豐富的商業成果。Amazon主管機器學習的副總裁Swami Sivasubramanian解釋:

Amazon Textract的強大之處在於,它可以從幾乎任何文檔中精確地提取文本和結構化數據,而不需要任何機器學習經驗。除了與其他AWS服務的集成之外,圍繞Amazon Textract進行開發的多方合作社區,能使客戶從他們的文件集合中獲得更多的實際意義、更高效的操作、更安全合規、更多自動化數據輸入和更快速的商業決策。

Amazon Textract在識別關鍵字段或內容方面,超越了傳統的光學字符識別(OCR)技術。而與之不同的是,可以使用Textract API來提取PDF、圖像、文本和表格等多種文件格式,然後再傳遞給Amazon ComprehendAmazon Comprehend MedicalAmazon Translate,以更智能的方式提取內容。

從Textract提取的數據採用JSON格式,包括諸如頁碼、節、標籤和數據類型等元數據。之後,內容和元數據都可以加載到數據庫和數據分析服務中,包括 Amazon Elasticsearch ServiceAmazon DynamoDBAmazon Athena,供會計、審計和合規性審覈等領域的其他應用程序使用。

爲了衡量數據提取過程的準確性,Textract爲它識別出來的每個數據屬性返回一個以百分比表示的置信值。這讓開發人員可以爲不準確之處做出標記,並將此信息傳遞給他人執行進一步驗證。此外,還提供了邊界框座標定位,以確定數據具體是從何處提取的。

Amazon已經擁有一些使用Textract服務的客戶,包括普華永道(PwC)、Healthfirst、Informed Inc、UiPath和《環球郵報》等公司。《環球郵報》利用Textract提高了其記者的工作效率,並從他們此前並未得到充分利用的龐大數據集中,發揮了更大優勢。《環球郵報》數字和數據科學的董事總經理Michael O’Neill解釋:

作爲一家新聞媒體公司,我們依賴於大量PDF文件或來源於掃描的文件,比如FOI(信息自由請求),這些文件的重要信息包含在我們以前無法訪問的表格中。這些文件沒有得到充分利用,因爲記者無法輕鬆訪問這些信息,甚至不知道它們的存在。通過使用Amazon Textract,我們能夠從PDF格式的表格中提取信息,並輕鬆地將數據輸出到CSV中,這樣記者就可以對這些文檔進行搜索查詢,從而輕鬆便捷地訪問這些文檔。這使我們的記者獲取信息的效率提高了十倍。

有關Amazon Textract的更多信息,請參閱其產品附帶文檔。

原文鏈接:

Amazon Enters Enterprise Content Management Space, Announces General Availability of Textract

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章