分組和聚合
Group and Aggregation
給定關係R,分組是指按照屬性集合(分組屬性)G中值對元祖進行分割。然後對每個組的值按照某些其他屬性進行聚合。通常允許的聚合運算包括SUM,COUNT,AVG,MIN和MAX,每個運算的意義都非常明顯。
MIN和MAX運算要求聚合的屬性類型必須具有可比性,如數字或者字符串類型,而SUM和AVG則要求屬性的類型能夠進行算數運算。關係R上的分組-聚合運算記爲,其中X爲一個元素表,而其中每個元素可以是:
- 一個分組屬性
- 表達式,其中是上述五種聚合運算之一,而A是一個非分組屬性。
Ex:Friend(User,Friend)
集羣計算 是一個大規模應用的常用架構,它由計算節點(處理器芯片,內存和磁盤)集羣而成。
分佈式文件系統 近年來開發的一個面向大規模文件系統的架構。文件大小爲64MB左右的文件塊組成,每個文件塊由多個副本分別存放在不同的計算節點或機架上
Jaccard相似度 集合之間Jaccard相似度等於交集大小與並集大小的比例。該相似度適合於多個應用,包括文檔的文本相似度及顧客購物習慣的相似度計算等。
簽名的局部敏感hash 該技術可以允許我們避免計算所有集合對或其最小哈希簽名對之間的相似度。
距離測度: 距離測度是指滿足一定準則的定義在空間上的點之間的函數。如果兩個點重合,那麼距離爲0,否則,兩點的距離大於0.
- 距離滿足對稱性,即兩個點不管孰先孰後,距離都一樣。距離測度必須要滿足三角不等式,即兩點的距離不大於這兩個點分別到第三個點的之和。