原创 HetSANN:基於注意力模型,自動挖掘異質網絡語義信息 AAAI2020

論文來源:AAAI2020 論文鏈接 代碼鏈接 現實世界中的數據通常包含了多種實體類型,這些實體通過不同的實體關係互相關聯形成了錯綜複雜的異構信息網絡。爲了有效地挖掘業務中廣泛存在的異構信息網絡,滴滴AI Labs團隊自主研發了

原创 【短文本相似度】傳統方法BM25解決短文本相似度問題

之前介紹過TF-IDF計算短文本相似度,見:傳統方法TF-IDF解決短文本相似度問題,想着就把這一系列都介紹完吧,也算是自己的歸納總結,今天就介紹一下如何使用BM25算法計算短文本相似度。 上一篇短文本相似度算法研究文章中,我們

原创 HGAT-用於半監督短文本分類的異構圖注意力網絡

來源:EMNLP 2019 論文鏈接 代碼及數據集鏈接 摘要 短文本分類在新聞和推特中找到了豐富和有用的標記,以幫助用戶找到相關信息。由於在許多實際應用案例中缺乏有標記的訓練數據,因此迫切需要研究半監督短文本分類。現有的研究主要

原创 各種一維卷積(Full卷積、Same卷積、Valid卷積、帶深度的一維卷積)

一維卷積通常有三種類型:full卷積、same卷積和valid卷積,下面以一個長度爲5的一維張量I和長度爲3的一維張量K(卷積核)爲例,介紹這三種卷積的計算過程。 一維Full卷積 Full卷積的計算過程是:K沿着I順序移動,每

原创 Latex常用特殊符號

原文鏈接 這段時間用Latex很多,常常需要查閱相關特殊的符號,這裏做一個整理,也方便大家查閱。 摘自:《一份不太簡短的LATEX2介紹》或112分鐘學會LATEX2 原版作者:Tobia

原创 【TF-IDF】傳統方法TF-IDF解決短文本相似度問題

一般的研究短文本相似度的方法基本上都是基於詞向量生成句子向量的方法。今天在這裏就介紹一下傳統算法TF-IDF是如何計算短文本相似度的。 TF-IDF是英文Term Frequency–Inverse Document Freque

原创 HAN - Heterogeneous Graph Attention Network 異構圖注意力網絡 WWW2019

論文題目:Heterogeneous Graph Attention Network (HAN)異構圖注意力網絡 作者:北京郵電大學Xiao Wang,Houye Ji等人 來源:WWW2019 論文鏈接:https://arxiv.o

原创 【Word2Vec】word2vec是如何得到詞向量的?

前言 word2vec是如何得到詞向量的?這個問題比較大。從頭開始講的話,首先有了文本語料庫,你需要對語料庫進行預處理,這個處理流程與你的語料庫種類以及個人目的有關,比如,如果是英文語料庫你可能需要大小寫轉換檢查拼寫錯誤等操作,如果是中文

原创 【GCN】從文本分類來看圖卷積神經網絡

01 —   “圖神經網絡”是什麼   過去幾年,神經網絡在機器學習領域大行其道。比如說卷積神經網絡(CNN)在圖像識別領域的成功以及循環神經網絡(LSTM)在文本識別領域的成功。對於圖像來說,計算機將其量化爲多維矩陣;對於文本來說,通過

原创 Transformer詳解

Transformer 什麼是transformer 爲什麼需要用transformer encoder sub-encoder block multi-head self-attention FFN input

原创 Transformer詳解

Transformer 什麼是transformer 爲什麼需要用transformer encoder sub-encoder block multi-head self-attention FFN input

原创 完全圖解RNN、RNN變體、Seq2Seq、Attention機制

本文主要是利用圖片的形式,詳細地介紹了經典的RNN、RNN幾個重要變體,以及Seq2Seq模型、Attention機制。 希望這篇文章能夠提供一個全新的視角,幫助初學者更好地入門。   1、 從單層網絡談起 在學習RNN之前,首先要了解一