必讀論文|信息檢索與推薦必讀論文10篇

AMiner研究團隊開發出一款利用人工智能（AI）技術、幫助科研工作者閱讀論文的智能論文搜索工具。該工具可以展示出該領域的必讀論文，並且對所選論文進行“智能”閱讀，反饋給你該論文的綜述、研究方法及主要結論，即幫你快速閱讀文獻，大大地節省了時間和精力。

信息檢索與推薦Topic必讀論文

信息檢索（Information Retrieval，IR）是指信息的表示、存儲、組織和訪問。信息推薦（Information Recommendation）是指系統向用戶推薦用戶可能感興趣但又無法獲取的有用信息。信息檢索與推薦的學術論文數量衆多，並且每年高度增長。對於該領域科研人員來說，工作負擔越來越重、耗時越來越長、精力越來越不夠用……

作爲信息檢索和推薦領域的研究人員，如何快速、準確、便捷地從浩瀚的文獻資源中找出必讀論文，閱讀所需要的相關文獻知識，並且能夠從大量數據中發現隱含的、有價值的信息，進而整合與創造出更大的科研成果和社會效益？

經過熱心用戶的精心整理，AMiner推出了信息檢索與推薦必讀論文，並輔以“一鍵綜述”、“智能論文精讀”等工具幫助科研工作者高效閱讀論文。下面我們精心挑選信息檢索與推薦領域必讀論文10篇奉上，幫助你快速瞭解相關知識。

1.論文標題：Information filtering and information retrieval: two sides of the same coin?

作者：Nicholas J. Belkin, W. Bruce Croft

期刊/會議：Commun. ACM, pp. 29-38, 1992.

一鍵綜述：

信息過濾和信息檢索：同一枚硬幣的兩個側面？

方法：

信息檢索與過濾模型：

l 信息檢索與信息過濾的一般概念

l 特定的信息檢索模型，這些模型主要集中在比較過程中。三大替代方法是布爾，向量空間和概率檢索模型。

l 檢索與過濾的概率模型

l 過濾模型

結論：本文考慮了信息過濾和信息檢索之間的關係。在抽象層次上，兩者之間差異不大：它們的目標基本上是相同的，此外，起初看來是信息過濾所特有的大多數問題實際上是IR問題的專業化。

2.論文標題：Content-based multimedia information retrieval: State of the art and challenges

作者：Michael S. Lew, Nicu Sebe, Chabane Djeraba, Ramesh Jain

期刊/會議：TOMCCAP, 2(1), 1-19.

一鍵綜述：

基於內容的多媒體信息檢索超越了科學、藝術和文化的範圍，爲搜索世界各地各種媒體提供了新的範例和方法。

方法：

本研究回顧了100多篇有關基於內容的多媒體信息檢索的最新文章，並討論了它們在當前研究方向中的作用，包括瀏覽和搜索範例、用戶研究、情感計算、學習、語義查詢、新功能和媒體類型、高性能索引和評估技術。

結論：

儘管多媒體信息檢索方面的學術研究取得了長足的進步，但MIR研究對商業應用的影響相對較小，除了一些細分市場，例如視頻分割。但這些研究尚處於起步階段，未來有必要避免MIR社區與現實世界的利益隔離。

3.論文標題：Learning to rank: from pairwise approach to listwise approach

作者：Zhe Cao, Tao Qin, Tie-Yan Liu, Ming-Feng Tsai, Hang Li

期刊/會議：ICML, pp. 129-136, 2007.

一鍵綜述：

本文涉及學習排名，即構建用於對對象進行排名的模型或函數。學習排名對於文檔檢索、協作過濾和許多其他應用很有用。

方法：

l Listwise方法：以文檔檢索爲例，對學習排名進行了一般性描述。

l 概率模型：我們使用一種概率模型將分數列表映射到概率分佈，然後將兩個概率分佈之間的任何度量作爲損失函數。這兩個模型分別稱爲置換概率和最高概率。

l ListNet 學習方法：以神經網絡爲模型、梯度下降爲優化算法，基於最高概率對列表式損失函數進行優化。

結論：

本文提出了一種學習排名的新方法，稱爲列表方法。並認爲，在學習排名時，採用這種方法要比傳統的成對方法更好。在列表式方法中，我們在學習中使用對象列表作爲實例，而不是使用對象對作爲實例。

列表方法的關鍵問題是定義逐列表損失函數。本文提出了採用概率方法來解決這個問題，具體而言，利用概率模型，即排列概率和排名靠前的概率，將排名分數轉換爲概率分佈。然後，將概率分佈之間的任何度量（例如交叉熵）視爲按列表損失函數。

作者使用神經網絡和梯度下降技術開發了一種學習方法。通過三個數據集的實驗結果表明，該方法比現有的成對方法（如RanNet，Rating SVM和RankBoost）效果更好，這表明採用列表方法來學習排名更好。

4.論文標題：Extended Boolean information retrieval

作者： Gerard Salton, Edward A. Fox, Harry Wu

期刊/會議：Commun. ACM, pp. 1022-1036, 1983.

一鍵綜述：

在常規的信息檢索中，使用索引項的布爾組合來制定用戶的信息請求。雖然原則上可以通過布爾查詢檢索任何文檔，但是通過布爾處理可獲得的輸出量很難控制，並且檢索到的項目不會按對用戶羣體重要的任何重要順序排列。

方法：

該論文引入一個處於查詢處理的布爾系統和矢量處理模型之間、新的擴展布爾信息檢索系統，該系統保留了布爾系統固有的查詢結構，同時可以將加權術語合併到查詢和存儲的文檔中；檢索到的輸出還可以按照與用戶查詢嚴格相似的順序進行排序。可以修改常規檢索系統以利用擴展系統。實驗室測試表明，擴展系統比布爾或矢量處理系統產生更好的檢索輸出。

結論：

新的擴展系統在對布爾邏輯使用中固有的術語連接詞的嚴格解釋與完全不存在表徵矢量處理系統的查詢結構之間架起了一座橋樑。通過各種樣品收集獲得的實驗證據，表明擴展匹配系統比常規布爾系統或矢量處理系統更強大。

5. 論文標題：The Role of Google Scholar in Evidence Reviews and Its Applicability to Grey Literature Searching

作者：neal r haddaway, alexandra collins, deborah coughlin, stuart a kirk

期刊/會議：PLOS ONE, 2015.

一鍵綜述：

Google學術搜索（GS）在證據審覈中的作用及其在灰色文獻搜索（是指商業學術出版商未正式發表的文章）中的適用性。

方法：

使用來自環境科學的系統評價案例研究，該文調查了GS在系統評價和尋找灰色文獻中的效用。

結論：

GS的結果包含適量的灰色文獻，大多數平均在第80頁上找到。當進行特定搜索時，使用Web of Science鑑定的大多數文獻也都是使用GS發現的。但是，當在Web of Science中使用類似的搜索字符串時，顯示結果存在中等/較差的重疊和GS（10％到67％），並且在六個案例研究中的五個案例中，GS錯過了一些重要的文獻。此外，一般的GS搜索無法從涉及手動搜索組織網站的案例研究中找到任何灰色文獻。如果用於灰色文獻的系統評價，作者建議對文章標題的搜索應集中在前200至300個結果上。

結論是，儘管Google學術搜索可以找到許多灰色文獻和特定的已知研究，但不應單獨將其用於系統的評論搜索。相反，它是其他傳統搜索方法的有力補充。此外，作者提倡使用工具透明地記錄和分類GS搜索結果，以保持較高的透明度和更新能力，這對於系統評價至關重要。

6.論文標題：Novelty and diversity in information retrieval evaluation

作者：Charles L.A. Clarke, Maheedhar Kolla, Gordon V. Cormack, Olga Vechtomova, Azin Ashkan, Stefan Büttcher, Ian MacKinnon

期刊/會議：SIGIR, pp. 659-666, 2008.

一鍵綜述：

將PRP解釋爲定義由IR系統優化的目標函數的起點。

方法：

l 探索了基於先前理論的測試集合的創建。

l 以TREC 2005和2006問答環節的測試集作爲起點。

l 儘管這些集合是爲完全不同的目的而構建的，但它們確實提供了所需集合的基本結構。

l 使用TREC 2005 QA測試集進行探索性工作；與2006年館藏的結果一致。

結論：

該文提出了一種評估框架，可以系統地獎勵新穎性和多樣性。根據累積收益將這個框架發展成爲一項具體的評估指標，使用基於TREC問答路徑的測試集證明了所用方法的可行性。目標是爲信息檢索定義一個可行的評估框架，以合理的方式說明新穎性和多樣性。文件通過信息塊與相關性鏈接，信息塊一方面代表文件的屬性，另一方面代表信息需求的組成部分。

7. 論文標題：Resolving Ambiguity for Cross-language Retrieval

作者：L. Ballestreros, W. B. Croft

期刊/會議：ACM SIGIR, pp. 64-71, 1998.

一鍵綜述：

改善跨語言檢索效率的主要障礙之一是減少與查詢翻譯相關的歧義。

方法：

l 平行語料庫可用於消除術語翻譯的歧義。

l 可以使用共現統計來消除術語作爲短語成分的歧義。可以將其用於一般術語的歧義消除，並將其與並行語料庫技術進行比較。

l 將術語與歧義配對，以消除歧義.

l 在此調查中，錨是具有明確翻譯，專有名詞或短語翻譯的查詢名詞。

結論：

l 改善跨語言檢索效率的主要障礙之一是減少與查詢翻譯相關的歧義。

l 翻譯錯誤主要是由於添加了多餘的術語以及無法正確翻譯短語。

l 短語翻譯更成問題。

l 詞典無法提供足夠的上下文來進行準確的短語翻譯。

l 語料庫分析可以利用此信息來大大減少短語翻譯的歧義。

l 共現技術可用於減少術語翻譯的歧義

8. 論文標題：An Overview of Microsoft Academic Service (MAS) and Applications

作者：Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June Paul Hsu, Bo-June Paul Hsu, Kuansan Wang

期刊/會議：WWW (Companion Volume), pp. 243-246, 2015.

一鍵綜述：

該文描述了Web規模實體圖的新版本，作爲Microsoft學術服務（MAS）的骨幹，其範圍擴大到同名垂直搜索引擎，該引擎自2008年以來作爲研究原型。

方法：

本文提出了兩個在學術領域的應用出版物來展示新興搜索範式的潛力。第一個應用程序說明了自然語言驅動的交互式搜索體驗。通過利用學術領域中實體之間的關係，自然語言處理器能夠獲取語法和語義線索，以解析和預測用戶查詢。第二個應用程序演示了推薦系統如何利用不同類型實體之間的關係來提供異構建議。

結論：

MAS的核心是一個異構實體圖爲學術活動建模，該圖由六種類型的實體組成：研究領域，作者，機構，論文，會場和事件。除了像以前所做的那樣從發佈者供稿中獲取這些實體之外，此版本中還包括來自Web索引的數據挖掘結果以及來自主要商業搜索引擎Bing的內部知識庫。Bing集成的結果是，新的MAS圖的大小顯着增加，隨着搜索引擎發現新的信息，這些信息將自動流過。此外，知識庫中包含的豐富實體關係提供了其他信號，以消除和豐富學術領域內外的實體。例如，根據Microsoft Research的學術活動得出的測試數據集，由MAS編制索引的論文數量已從低數千萬增長到8,300萬，同時保持了95％以上的準確性。基於數據集，我們演示了這項工作中的兩種情況：知識驅動的高度交互性對話框，將對話式搜索和主動式建議體驗無縫地結合在一起，以及主動式異構實體推薦。

9. 論文標題：Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions

作者：Gediminas Adomavicius, Alexander Tuzhilin

期刊/會議：IEEE Trans. Knowl. Data Eng., pp. 734-749, 2005.

一鍵綜述：

本文介紹了推薦系統領域，並介紹了當前的推薦方法，這些推薦方法通常分爲以下三個主要類別：基於內容的推薦方法，協作推薦方法和混合推薦方法。

方法：

推薦系統：基於內容的推薦方法、協作推薦系統、混合方法。

結論：

本文描述了當前推薦方法的各種侷限性，並討論了可能的擴展，這些擴展可以提高推薦功能並使推薦器系統適用於更廣泛的應用程序。這些擴展包括：改善對用戶和項目的理解，將上下文信息納入推薦過程，支持多重標準評級，以及提供更靈活，更具干擾性的推薦類型。

過去十年中，當多種基於內容、協作和混合的方法並開發了幾種“工業強度”系統時，推薦系統取得了長足的進步。但是，儘管取得了所有這些進步，但本文當前推薦系統仍需要進一步改進以制定推薦方法

在更廣泛的應用中更有效。本文回顧了當前推薦方法的各種侷限性，並討論了可以提供更好推薦功能的可能擴展。這些擴展包括：改進的用戶和項目建模，將上下文信息合併到推薦過程中，對多重標準評級的支持以及提供更靈活，更具侵入性的推薦過程。

10.論文標題：Evaluating collaborative filtering recommender systems

作者：Jonathan L. Herlocker, Joseph A. Konstan, Loren G. Terveen, John T. Riedl

期刊/會議：ACM Transactions on Information Systems (TOIS), pp. 5-53, 2004.

一鍵綜述：

推薦系統已經以許多通常無法比擬的方式進行了評估。本文回顧了評估協作過濾推薦器系統的關鍵決策：正在評估的用戶任務，正在使用的分析類型和數據集，測量預測質量的方式，對除質量以外的預測屬性的評估，以及基於用戶的整個系統評估。

方法：

本文回顧了評估協作過濾推薦器系統的關鍵決策：正在評估的用戶任務，正在使用的分析類型和數據集，測量預測質量的方式，對除質量以外的預測屬性的評估，以及基於用戶的整個系統評估。除了回顧以前的研究人員使用的評估策略外，還提供了對一個內容域中各種準確性指標進行分析的經驗結果，其中所有測試指標都大致分爲三個等效類。每個對等類別中的指標高度相關，而不同對等類別中的指標不相關。

結論：

本文概述了評估中已考慮的因素，並介紹了應在評估中考慮的新因素。此外，介紹了關於準確性指標的經驗結果，從而提供了有關不同評估指標的結果可能如何變化的一些初步見解。本文將提高人們對報告的評估中潛在偏見的認識，在必要時增加評估維度的多樣性，並鼓勵開發更加標準化的評估方法。

必讀論文|信息檢索與推薦必讀論文10篇

DAPPER 事務 TRANSACTION

必讀論文 | 雲機器人必讀論文10篇

必讀論文 | 機器交互必讀論文8篇

ICLR 2020 | reformer高效處理長序列，單機能跑，計算資源貧困人士的福音

必讀論文 | 卷積神經網絡百篇經典論文推薦

《人工智能之學術搜索》報告重磅發佈：呈現知識和算法雙引擎驅動的未來發展趨勢 | 附報告PDF下載

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結