原创 《BLINKS: Ranked Keyword Searches on Graphs》——論文筆記

ABSTRACT 目前關鍵詞查詢的技術缺陷:poor worst-case performance, not taking full advantage of indexes, and high memory requirements.

原创 《Scaling Queries over Big RDF Graphs with Semantic Hash Partitioning》——筆記

ABSTRACT 首先,我們提出的語義哈希分割方法通過基於方向的三元組和基於方向的triple replications來擴展簡單的哈希分區方法。後者通過數據訪問位置的智能利用通過受控數據複製來增強前者,使得可以以零或非常少量的機器間通信

原创 《Scalable SPARQL Querying using Path Partitioning》

ABSTRACT 對大RDF圖進行復雜查詢的需求,要求查詢的scalable。分區間查詢費事,本文提出新的數據劃分方法,利用了RDf數據集中豐富的結構信息,減少了分區間連接,效果很好。 INTRODUCTION RDF增長——超出單機運算

原创 《Spark快速大數據分析》——讀書筆記(1,2)

推薦序 帶來革命性改變的並非海量數據本身,而是我們如何利用這些數據。大數據解決方案的強大在於他們可以快速處理大規模、複雜的數據集,可以比傳統方法更快,更好的生成洞見。 大數據解決方案通常包含多個組件,但數據處理引擎之於大數據就像CPU之

原创 《Efficient Batch Processing for Multiple Keyword Queries on Graph Data》——論文筆記

ABSTRACT 目前的關鍵詞查詢只關注單個查詢。對於查詢系統來說,短時間內會接受大批量的關鍵詞查詢,往往不同查詢包含相同的關鍵詞。 因此本文研究圖數據多關鍵詞查詢的批處理。爲多查詢和單個查詢找到最優查詢計劃都是非常複雜的。我們首先提出

原创 《Evaluating SPARQL Queries on Massive RDF Datasets》——筆記

Abstract 現在的系統大部分生成靜態分區,對於一些不適合現有分區的查詢並不友好。本文提出AdHash。 初始時,採用哈希分區。快捷且可並行。 監視數據訪問模式並通過逐步重新分發和複製經常訪問的數據來動態地適應查詢負載。 Intr

原创 《蘇菲的世界》——讀書筆記

伊甸園 你是誰? 如果換個名字,換個長相還是自己麼? 終有一天會死去,屆時纔會體會到生命是多麼可貴。 世界從何而來? 在某一時刻,事物必然曾經從無到有。 席德是誰? 魔術師的禮帽

原创 《Spark快速大數據分析》——讀書筆記(4)

第4章 鍵值對操作 鍵值對RDD通常用來進行聚合計算。我們一般要先通過一些初試ETL(抽取、轉化、裝載)操作來將數據轉化爲鍵值對形式。 本章也會討論用來讓用戶控制鍵值對RDD在各節點上分佈情況的高級特性:分區。 4.1 動機 pair

原创 《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——論文筆記

ABSTRACT 在不同處理系統,應用,圖,運行環境下,分區策略選擇的問題。沒有單個的策略適用於所有環境,實驗表明分區策略取決於(1)輸入圖的度數分佈(2)應用程序的類型和持續時間(3)集羣大小。 1. INTRODUCTION 現在有各

原创 《EAGRE: Towards scalable I/O efficient SPARQL query evaluation on the cloud》——論文筆記

ABSTRACT 使用高級聲明式編程語言如Pig或設計複雜的MapReduce作業來評估SPARQL查詢方面有一定的進展,但兩者都需要很多的連接操作。由於雲存儲的簡單性和現有解決方案中RDF數據的粗略組織,多個連接操作帶來大量I/O操作,

原创 《2015》——王小波

這是王小波的一篇中篇小說,我花了幾個小時讀完之後,腦子裏並沒有太大的感觸,也不知道作何感想,和往常一樣我去找其他人的評論和感觸。這些評論主要在叵測,規則和性愛方面進行敘述。 小舅因爲畫叵測被吊銷畫家執照,因爲賣畫而多次被拘留、進習藝所、被

原创 《Keyword Search over RDF Graphs》——讀書筆記

最大的問題!terms和triples的區別!? ABSTRACT 知識庫中的實體和關係非常重要,但是主要以RDF形式存儲,需以結構化的語言查詢,如SPARQL。但是結構化的查詢對查詢者要求較高,使得資源難以被利用,關鍵詞查詢顯得非常有必

原创 《RDF Graph Partitions: a Brief Survey》——筆記

Abstract 給出圖分割的理由和解決方案。使用經典圖形理論解決圖分割問題。提出四種將RDF圖轉換爲古典圖形的方法。 Introduction 語義Web和Linked Data environments的核心數據模型。 RDF圖規模

原创 《Spark快速大數據分析》——讀書筆記(5)

第五章 數據讀取與保存 5.1 動機 動機:數據量比較大,單臺機器無法完成。 三類常見的數據源: 文件格式與文件系統。對於存儲在本地文件系統或分佈式文件系統(比如NFS、HDFS、Amazon S3等)中的數據,Spark可以訪問很多

原创 《Spark快速大數據分析》——讀書筆記(3)

只看書是快,但是動手時會遇到種種問題,不可怠慢! 第3章 RDD編程 彈性分佈式數據集(Resilient Distributed Dataset,RDD)其實就是分佈式的元素集合。在Spark中,對數據的所有操作不外乎創建RDD、轉化已