原创 基於互信息與左右信息熵的新詞發現

import re from collections import Counter import numpy as np def ngram_words(file,ngram_cont): words = [] for

原创 wod清洗,docx

import docx from win32com import client as wc import re import os import os.path def getListFiles(path): ret = []

原创 貝葉斯,SVM分類

from sklearn.model_selection import train_test_split from sklearn.naive_bayes import MultinomialNB from sklearn import

原创 QA問題總結

最近看了一些QA任務關於《Lstm-based Deep Learning Models for Non- factoid Answer Selection》的體會 1.本文針對答案選擇任務應用了通用的深度學習框架,該框架不依賴於手動定義

原创 Transformer源碼分析

import numpy as np import torch import torch.nn as nn import torch.nn.functional as F import math, copy, time from tor

原创 XLnet

自迴歸語言模型(Autoregressive LM)  語言模型其實是根據上文內容預測下一個可能跟隨的單詞,就是常說的自左向右的語言模型任務,或者反過來也行,就是根據下文預測前面的單詞,這種類型的LM被稱爲自迴歸語言模型。GPT 就是典型

原创

from gensim.models import Word2Vec,FastText from keras.preprocessing.text import Tokenizer import jieba from keras.prep

原创 Chinese NER Using Lattice LSTM

  本文研究了lattice-structured LSTM模型用來做中文的NER,在character-based的序列標註的模型上改進得到的,在character-based模型中的每個character cell vector通過詞

原创 利用詞典進行命名實體

1.本文提供了只需要提供字典的情況下,實施NER任務,並對進行了標註數據的對比試驗。 2.使用未標記數據和命名實體字典來執行NER的方法。作者將任務表示爲正未標記(PU, Positive-Unlabeled)學習問題,並由此提出一種PU

原创 Reading Wikipedia to Answer Open-Domain Questions

本文是發表在 ACL2017 上的一篇論文, (1)Document Retriever:基於二元語法哈希(bigram hashing)和TF-IDF匹配的搜索組件對於給出的問題,有效地返回相關的文檔 (2)Document Reade

原创 QA問題

1.文章採用Document Retriever + Document Reader, 其中Document Retriever的問題是從Wikipedia抽取出相關的文檔或段落,然後利用Document Reader進行閱讀理解。 2.

原创 bert總結

1.BERT是一個預訓練的模型,用於下游任務的使用,這裏在解釋下什麼是與訓練模型: 假設已有A訓練集,先用A對網絡進行預訓練,在A任務上學會網絡參數,然後保存以備後用,當來一個新的任務B,採取相同的網絡結構,網絡參數初始化的時候可以加載A

原创 keras_bert運算

import numpy as np from keras_bert import load_trained_model_from_checkpoint,Tokenizer import codecs import pandas as

原创 elmo問題

elmo中的拼接方式是否可以改變?

原创 elmo總結

 在回顧elmo能發現是從word2vec的一大進步,在bert,XL-Net橫空出世的現在,elmo也是起到承上啓下的作用,現在就總結下elmo吧。 1.ELMo是一種新型深度語境化詞表徵,可對詞進行復雜特徵(如句法和語義)和詞在語言語