原创 bert分詞工具-使用Bert自帶的WordPiece分詞工具將文本分割成單字

筆者不久前發佈過一個中文分字工具,(本文稱之爲version1.0)該工具是將所有的字符單獨分離出來,並以空格隔開。筆者使用該工具分字之後在實體分類任務上的效果很差。原因可能有下. 時間數據經version1.0處理之後如下: 原

原创 什麼是實體對齊、實體消歧、屬性對齊?

什麼是實體對齊、實體消歧? 實體對齊旨在判斷兩個或者多個不同信息來源的實體是否爲指向z真實世界中同一個對象。如果多個實體表徵同一個對象,則在這些實體之間構建對齊關係,同時對實體包含的信息進行融合和聚集。 實體消歧:根據上下文

原创 python爬蟲-selenium爬取鏈家網房源信息

使用selenium抓取鏈家網房源信息,含分頁處理。 源碼如下,詳細請看註釋: # coding=utf-8 from selenium import webdriver import time from selenium.web

原创 python讀寫txt、csv、json

先寫這些,有時間再加。 import csv ''' Description:文件讀寫工具 Author:西蘭 Date:2019-11-30 ''' class util(object): ''' 以追加形式

原创 TensorBoard案例

本文構建了Tensorflow中tensorboard的使用案例,採用手寫數字識別(MNIST)數據集創建了一個簡單的神經網絡,本文僅示例tensorbord在構建網絡時的應用,具體的可視化過程網上已有不錯的講解,如tensorb

原创 Latex排版公式時編號右對齊

Latex排版公式時讓該公式對應的編號右對齊,如下例: 直接使用 \begin{equation} \end{equation}就好,公式裏面不用手動寫編號,編譯後會自動生成。 \begin{equation} y=\dfrac{

原创 selenium爬取數據打開瀏覽器新的標籤頁

如何利用webdriver打開多個標籤頁和鏈接呢? 經實踐,網上流傳的傳入“ctrl+t的按鍵事件”方法針對谷歌瀏覽器並不適用。實踐證明以下方式可以正常打開谷歌瀏覽器新的標籤頁。 browser.execute_script("w

原创 Event Detection with Trigger-Aware Lattice Neural Network(論文解讀)

本文針對事件抽取任務中的觸發詞識別和觸發詞分類子任務提出了可以充分利用字級別和詞級別語義信息的模型Trigger-Aware Lattice Neural Network(TLNN),在ACE2005和KBP2017數據集上取得了

原创 對BERT分詞之後的文本序列進行BIO標註

先記錄一下,有時間再寫具體過程。 關注“編程ABC”,每天進步一點點~ 待標註文本(text.txt): 河南宏光正商置業有限公司2019年非公開發行公司債券(第一期)(品種二)定於2019年12月3日起在本所綜合協議交易平臺進

原创 論文閱讀-Event Detection without Triggers

Event Detection without Triggers(騰訊、NAACL2019、源碼&無數據集源碼) 原文鏈接:原文鏈接 (1)背景 事件檢測(Event detection)的目標是檢測文本中是否含有事件並對其進行分

原创 中文字符分字處理工具

中文字符分字處理工具,將字符進行分字處理,字符與字符以空格隔開,如:我是一名小學生 處理後:我 是 一 名 小 學 生 如需要爲bert模型處理分字,請看bert分詞工具-使用Bert自帶的WordPiece分詞工具將文本分割成單

原创 金融領域文檔級別事件抽取-Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extract

該論文來自EMNLP2019、清華&微軟研究院、源碼&數據集【1】已開源github:Doc2EDAG paper地址:paper原文 金融領域數據有以下兩種特徵: ① 事件元素分散(Arguments-scattering):指

原创 美甲網站

基於Javaweb的美甲網站,美甲商城。數據庫使用了MySQL。 以下是系統截圖:

原创 論文閱讀:Semantic Parsing on Freebase from Question-Answer Pairs

內容速覽 1.什麼是語義解析(Semantic Parsing) 2.什麼是邏輯形式(Logic Form) 3.語義解析KB-QA的方法框架 4.實驗結果 本期我們從傳統方法之一的語義解析(有時也被稱爲語義分析)開始,以一個

原创 什麼是語言模型?如何判斷模型是不是語言模型

本文假定讀者瞭解word2vec、emlo、BERT等模型。 那麼什麼是語言模型呢?或者說如何判斷一個模型是不是語言模型呢? 首先我們來看一下語言模型(LM)的兩個目標: (1)LM的目的是爲一個句子或詞序列賦予一個概率。 (2)