OpenIE 5的berkeley language model的生成

原創

2019-03-23 06:32

起源

想用openie5.0進行開放信息抽取，但是因爲其中一個重要的附件languagemodel因爲有6.8G，且存儲在Google硬盤，下載時經常斷開連接（居然不能斷點續傳，西方神奇）。搜索博客後，發現有人寫了一份參考實現。但是我在具體使用時發現，他遺漏了重要細節。下面是我重新寫的一個可以完美實現openIE 5的berkeley language model的生成。

過程

1、下載如下兩個文件（都來自berkeley的小組官網）：
截止2019年3月21日仍可以有效訪問。

http://tomato.banatao.berkeley.edu:8080/google_books_binaries/eng.blm.gz
http://tomato.banatao.berkeley.edu:8080/google_books_dirs/books_google_ngrams_eng/1gms/vocab_cs.gz

2、git 獲取berkeley的項目 https://github.com/adampauls/berkeleylm

3、在src文件夾下添加一個如下類stupidOff

import edu.berkeley.nlp.lm.StupidBackoffLm;
import edu.berkeley.nlp.lm.io.IOUtils;
public class stupidOff {
	
	public static void main(String []args) {
		String file1="/home/rise1001/project/berkeleylm-master/languageModel"; //定義生成的語言模型位置
		String file2="/home/rise1001/project/berkeleylm-master/src/eng.blm.gz";
		String file3="/home/rise1001/project/berkeleylm-master/src/vocab_cs.gz";
		StupidBackoffLm<String> stupidBackoffLm=edu.berkeley.nlp.lm.io.LmReaders.readGoogleLmBinary(file2, file3);
		IOUtils.writeObjFileHard(file1,stupidBackoffLm);
	}
}

項目整體結構和最後生成的模型見下圖

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

java線程併發庫

ThreadLocal的使用，，，實際上相當於維護了一個Map，其中以鍵值對的形式，存儲了某一個數據被多個線程訪問所對應的值。當然這個數據只能有

2020-07-08 12:36:33

分佈式系統各個節點狀態如何同步？淺談一下

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:30

ZooKeeper 一致性協議 ZAB 原理，瞭解一下

一致性協議有很多種，比如 Paxos，Raft，2PC，3PC等等，在這講一種協議，ZAB 協議，該協議應該是所有一致性協議中生產環境中應用最多的了。爲什麼？因爲它是爲 Zookeeper 設計的分佈式一致性協議！ 1. 什麼是

毛发旺盛的程序员

2020-07-08 12:27:20

Spring中Transactional 失效的解決方案，讓我們一起探討一下

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:20

太狠了,Spring全家桶筆記,一站式通關全攻略,已入職某廠漲薪18K

Spring 早已成爲 Java 後端開發事實上的行業標準，無數的公司選擇 Spring 作爲基礎的開發框架，大部分Java 後端程序員在日常工作中也會接觸到 Spring ，因此，如何用好 Spring ，也就成爲 Java

毛发旺盛的程序员

2020-07-08 12:27:20

java中的NAN和INFINITY java中的NAN和INFINITY

java中的NAN和INFINITY java浮點數運算中有兩個特殊的情況：NAN、INFINITY。 1、INFINITY：在浮點數運算時，有時我們會遇到除數爲0的情況，那java是如何解決的呢？我們知道，在整型運算中

2021-11-28 13:09:28

【Java 小白菜入門筆記 2.2】常用的類和方法

Array Array 含有sort、fill、equals、BinarySearch等方法 import java.util.Arrays; import java.util.Random; public class Arra

江户川柯壮

2020-07-08 12:39:29

springboot增量打包更新--靜態資源分離打包

springboot部署打包爲jar，一般都是全量打包，jar包的大小通常都是超過100M的，並且在進行一般的頁面html微調、js修改、img替換、css樣式修改時也需要重新打包進行部署；每次微小的調整都需要重新打包就太煩了，一

2020-07-08 12:39:29

增加FastDfs多文件存儲路徑

項目需要增加聊天會話功能，涉及到上傳語音圖片等信息。考慮新增一個目錄，所有相關文件存在一個相同的目錄中。因此需要對原項目增加一個存儲的路徑。以前的項目因爲只有一個路徑，且已經運行中。走了些彎路，僅此記錄操作過程。nginx version

2020-07-08 12:37:23

JSONArray指定日期的反序列化

JSONArray序列化日期最初用到，這個是全局設置，會有風險。 String[] dateFormats = new String[] {"yyyyMMdd"}; JSONUtils.getM

2020-07-08 12:37:23

java緩存對象，使之不需要每次都從數據庫中獲取,以提高程序性能

直接上源碼，定義一個抽象類，必須實現get方法。該方法是用來獲取需要緩存的對象的。 import java.util.HashMap; import java.util.Map; /** * 用於從數據庫中獲取相應值的緩存類 *

2020-07-08 12:37:23

類加載和類實例化

Java程序中對類的使用方式分爲兩類：主動使用和被動使用主動使用：創建類的實例訪問某個類或接口的靜態變量，或者對該靜態變量賦值調用類的靜態方法反射初始化一個類的子類 java虛擬機啓動時被標明爲啓動類的類從JDK

吃酒忘情殇

2020-07-08 12:36:21

大數據入門（七）win10上eclipse使用Hadoop的配置

目錄工具eclipse的Hadoop環境配置參考系列：大數據入門（一）環境搭建，VMware15+CentOS8.1 配置 https://blog.csdn.net/qq_34391511/article/details/1

2020-07-08 12:35:23

Java動態綁定機制經典案列理解

如題，直接帶入案例進行理解Java的動態綁定機制，不多說直接上代碼了。 package one; public class JavaTest { public static void main(String[] args

2020-07-08 12:33:16

阿里年薪破百架構師推薦：鳥哥的Linux私房菜，搭配面試題，真香

在Linux實操的過程中，你是否有過這些疑問：如何提取日誌中含有關鍵字的指定行，上一行或上幾行？ ln 做了符號鏈接，對符號鏈接進行權限修改，原文件是否會受到影響？ Shell 腳本里有很多特殊符號，到底該怎麼用？網上流傳的

毛发旺盛的程序员

2020-07-08 12:27:30

24小時熱門文章

最新文章

最新評論文章