文章介紹
這周讀的是《Categorizing and Inferring the Relationship between the Text and Image of Twitter Posts》這篇文章,發表於ACL2019會議上,並且做了oral talk。文章主要做的工作如下:
- 使用推特提供的api從推特獲取了大約5000條包含圖文信息的數據;並收集了他們的人口統計學數據
-
針對數據進行了標註,標註內容是圖文信息是否相關,並定義了四種分類,如下:文本可以表示圖片;文本不能表示圖片;圖像增加了推特的含義;圖像沒有增加推特含義;組合成一個四分類問題
- 在此數據集基礎上分別使用不同的數據和方法進行實驗
- 數據集已經公佈在github上:https://github.com/danielpreotiuc/text-image-relationship/
作者將該任務分解爲兩個子任務:第一個任務爲文本任務,關注的是文本和圖像之間是否存在語義重疊;第二項任務關注的是圖像在推特語義中的作用,目的是識別圖像內容是否對推特超出文字的信息做出了貢獻。
方法介紹:
實驗時主要使用了以下數據:
- 用戶的人口統計學數據(性別、年齡、教育程度、年收入);
- 推特元數據(包括數量、follower的數量,朋友);
- 基於文本的數據;
- 基於圖像的數據;
- 基於文本和圖像的數據;
在使用前兩類數據時,主要是使用的傳統的機器學習方法,做了簡單的邏輯迴歸,區別只是使用的數據不同;
在使用基於文本的數據時,使用了三種方法:
- 淺層特徵:我們提取注入標點符號,@,引用等元素的數量作爲特徵進行邏輯迴歸
- 詞袋模型:我們使用詞袋模型進行邏輯迴歸,分別使用一元和二元的詞袋模型進行邏輯迴歸
- LSTM模型:使用LSTM進行預測,200維的詞向量表示(在20億條推特上預訓練好的),然後是隱層(64個units和0.4的dropout),使用adam優化最小交叉熵函數
在使用基於圖像的數據時,主要是基於google的inceptionnet進行試驗:
- 直接使用在imagenet上預測好的模型,提取特徵,然後輸入一個邏輯迴歸分類器,訓練時只調整分類器的參數
- 建立端到端的模型,使用預訓練好的inceptionnet加上全連接層進行預測,微調原來的模型參數
在使用基於文本加圖像的數據時,使用了集成學習和其他的方式進行,取得了最好的效果:
- 集成學習:使用集成學習的方式將基於文本的和以及圖像的結果結合起來;將兩種模式的信息結合起來的一個簡單方法是建立一個集成分類器。這是通過一個具有兩個特性的邏輯迴歸模型實現的單詞文本模型的預測類概率和調整後的InceptionNet模型的預測類概率。該模型的參數通過對訓練數據的交叉驗證和類似於單個模型的分割來調整。
- LSTM+InceptionNet:將LSTM和inceptionnet的最後的輸出拼接後,輸入全連接層(一個隱層64個單元),使用adam進行優化
結果介紹
從下圖中可以看出,此方法對於預測文本圖像之間的關係效果並不算好,對於一個四分類問題只到了44%。