原创 TensorFlow 2.1.0 使用 TFRecord 轉存與讀取文本數據

前言: 上次記錄了一下如何使用 TFRecord 來轉存圖片與 label ,後續經手了一些 NLP 任務,嘗試使用了 TF 2.1.0,所以記錄一下如何使用 TFRecord 來保存和讀取文本數據。 準備工作: TFRecord 無法直

原创 Python 命名實體識別(NER) 庫 使用指南

一、前言 最近工作中需要使用命名實體識別來做一版人名及機構名的預識別demo,評估了獨立訓練一套NER模型所耗費的標註成本巨大,加上目前只是對該需求進行demo版本的開發,所以花了一段時間對目前現有的開源 NER 工具包進行了調研及優缺點

原创 論文研讀(1)《Summarizing Source Code with Transferred API Knowledge》

前言 20年給自己立了一個閱讀論文數量的flag,但有些論文讀完後沒有實踐,過一陣子又會忘記論文中的一些細節,所以2020開一個新的論文研讀系列,記錄一下自己讀過的論文吧。 第一篇論文,《Summarizing Source Code w

原创 Bert (Bi-directional Encoder Representations from Transformers) Pytorch 源碼解讀(一)

前言 Bert (Bi-directional Encoder Representations from Transfromers) 預訓練語言模型可謂是2018年 NLP 領域最耀眼的模型,看過很多對 Bert 論文和原理解讀的文章,但

原创 Bert (Bi-directional Encoder Representations from Transformers) Pytorch 源碼解讀(二)

前言 這裏是 Bert(Bi-directional Encoder Representations from Transformers) 源碼解讀的第二部分,第一部分主要介紹了 bert_model.py 文件中, bert 模型的定義

原创 揭開知識庫問答KB-QA的面紗8·非結構化知識篇

內容速覽非結構化的知識庫——維基百科文檔檢索與文檔理解段落encoding、問題encoding與答案預測實驗與總結如果你想尋找一個問題的答案,比如謝霆鋒的出生年月,那麼你可能會先去查看關於謝霆鋒的百度百科 或者 維基百科,找到和出生年月

原创 文本分類模型第一彈:關於Fasttext,看這一篇就夠了

一、前言 最近手頭上接到一個文本分類的任務,當前使用的Baseline是Fasttext模型。由於之前對Fasttext瞭解不是很多,所以在開始之初決定對Fasttext進行一番調研。但網上關於Fasttext的博客和提出Fasttext

原创 python RGB與LCH互轉 算法

一、前言 最近業務需要,要將一個 RGB 色彩空間的顏色,轉化到 LCH 色彩空間,生成漸變色,再轉回 RGB 色彩空間。查遍網上,只有 Matlab 寫的轉換代碼。沒有 RGB 與 LCH 互轉的 PYTHON 代碼,所以自己手擼了一個

原创 文本分類模型第二彈:HAN(Hierarchy Attention Network)

一、前言 本文是文本分類的第二篇,來介紹一下微軟在2016年發表的論文《Hierarchical Attention Networks for Document Classification》中提出的文本分類模型 HAN(Hierarch

原创 Bert (Bi-directional Encoder Representations from Transformers) Pytorch 源碼解讀(三)

前言 Bert (Bi-directional Encoder Representations from Transformers) Pytorch 版本源碼解讀的第三篇,也是最後一部分。這一部分爲源碼中, wiki_dataset.py

原创 自動摘要生成(一):最大邊界相關算法(MMR)

分享一下前一段時間公司需要做的文章自動摘要。 一.摘要方法 目前來說,文章摘要自動生成主要分爲兩種方法:生成式和抽取式。 生成式採用sequence2sequence+Attention的模型,採用Encoder-Decoder的結構,具

原创 自動摘要生成(三):詞向量相似度與有效詞含量

一、前言 新聞在動摘要生成的前兩部分在這裏: 自動摘要生成(一):最大邊界相關算法(MMR) 自動摘要生成(二):由PageRank轉變而來的TextRank算法 這裏是新聞摘要生成系列的第三部分,這一篇沒有什麼具體算法,主要介紹兩種更偏

原创 自動摘要生成(二):由PageRank轉變而來的TextRank算法

一、瞎扯 這是我2019年寫的第一篇博客,開篇說點題外話,翻了一下博客的記錄,上一遍新聞自動摘要生成(一)的博客還是去年7月寫的,這大半年的時間裏,忙着秋招,忙着找工作,忙着實習,忙着完成畢業設計,以及忙着完成畢業論文,月初提交了畢業論文

原创 文本分類模型第三彈:BoW(Bag of Words) + TF-IDF + LightGBM

一、前言 本文是文本分類模型的第三彈,利用詞袋模型(BoW),詞頻逆文檔頻率(TF-IDF)與 LightGBM 模型進行文本分類。 原本計劃的第三彈內容爲 TextCNN 網絡,介於最近剛剛利用 LightGBM 完成了一個簡單的文本分

原创 TensorFlow 2.1.0 使用 TFRecord 轉存與讀取圖片

前言 當 NLP 玩家遇到一個 CV 圖像分類的任務時,老實的說,我是有點懵逼的。。。 任務目標是,訓練一個層數較少,結構較爲簡單的圖像分類模型,使用其最後一層隱藏層輸出,作爲特徵向量來表徵圖像。 之前都是使用 Keras 較多,於是本次