台部落我想了很多事情

import re from collections import Counter import numpy as np def ngram_words(file,ngram_cont): words = [] for

2020-07-05 00:14:31

import docx from win32com import client as wc import re import os import os.path def getListFiles(path): ret = []

2020-07-05 00:14:31

from sklearn.model_selection import train_test_split from sklearn.naive_bayes import MultinomialNB from sklearn import

2020-07-05 00:14:31

最近看了一些QA任務關於《Lstm-based Deep Learning Models for Non- factoid Answer Selection》的體會 1.本文針對答案選擇任務應用了通用的深度學習框架，該框架不依賴於手動定義

2020-07-05 00:14:20

import numpy as np import torch import torch.nn as nn import torch.nn.functional as F import math, copy, time from tor

2020-07-05 00:14:20

自迴歸語言模型（Autoregressive LM）語言模型其實是根據上文內容預測下一個可能跟隨的單詞，就是常說的自左向右的語言模型任務，或者反過來也行，就是根據下文預測前面的單詞，這種類型的LM被稱爲自迴歸語言模型。GPT 就是典型

2020-07-05 00:14:20

from gensim.models import Word2Vec,FastText from keras.preprocessing.text import Tokenizer import jieba from keras.prep

2019-10-26 06:31:06

本文研究了lattice-structured LSTM模型用來做中文的NER，在character-based的序列標註的模型上改進得到的，在character-based模型中的每個character cell vector通過詞

2019-08-23 04:33:40

1.本文提供了只需要提供字典的情況下，實施NER任務，並對進行了標註數據的對比試驗。 2.使用未標記數據和命名實體字典來執行NER的方法。作者將任務表示爲正未標記（PU, Positive-Unlabeled）學習問題，並由此提出一種PU

2019-08-15 04:12:50

本文是發表在 ACL2017 上的一篇論文，（1）Document Retriever：基於二元語法哈希（bigram hashing）和TF-IDF匹配的搜索組件對於給出的問題，有效地返回相關的文檔（2）Document Reade

2019-07-30 03:47:14

1.文章採用Document Retriever + Document Reader, 其中Document Retriever的問題是從Wikipedia抽取出相關的文檔或段落，然後利用Document Reader進行閱讀理解。 2.

2019-07-30 03:47:14

1.BERT是一個預訓練的模型，用於下游任務的使用，這裏在解釋下什麼是與訓練模型：假設已有A訓練集，先用A對網絡進行預訓練，在A任務上學會網絡參數，然後保存以備後用，當來一個新的任務B，採取相同的網絡結構，網絡參數初始化的時候可以加載A

2019-06-30 05:33:30

import numpy as np from keras_bert import load_trained_model_from_checkpoint,Tokenizer import codecs import pandas as

2019-06-28 05:36:48

elmo中的拼接方式是否可以改變？

2019-06-26 07:54:16

在回顧elmo能發現是從word2vec的一大進步，在bert,XL-Net橫空出世的現在，elmo也是起到承上啓下的作用，現在就總結下elmo吧。 1.ELMo是一種新型深度語境化詞表徵，可對詞進行復雜特徵(如句法和語義)和詞在語言語

2019-06-26 07:54:16