人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 4.概念(分組和聚合,Jaccard,分佈式文件系統,距離測度)

分組和聚合

Group and Aggregation

給定關係R,分組是指按照屬性集合(分組屬性)G中值對元祖進行分割。然後對每個組的值按照某些其他屬性進行聚合。通常允許的聚合運算包括SUM,COUNT,AVG,MIN和MAX,每個運算的意義都非常明顯。

MIN和MAX運算要求聚合的屬性類型必須具有可比性,如數字或者字符串類型,而SUM和AVG則要求屬性的類型能夠進行算數運算。關係R上的分組-聚合運算記爲γx(R)\gamma_x(R),其中X爲一個元素表,而其中每個元素可以是:

  • 一個分組屬性
  • 表達式θ(A)\theta(A),其中θ\theta是上述五種聚合運算之一,而A是一個非分組屬性。
    Ex:Friend(User,Friend)

γ  User,COUNT(Friend)(Friends)\gamma \ \ _{User,COUNT(Friend)}(Friends)

集羣計算 是一個大規模應用的常用架構,它由計算節點(處理器芯片,內存和磁盤)集羣而成。

分佈式文件系統 近年來開發的一個面向大規模文件系統的架構。文件大小爲64MB左右的文件塊組成,每個文件塊由多個副本分別存放在不同的計算節點或機架上

Jaccard相似度 集合之間Jaccard相似度等於交集大小與並集大小的比例。該相似度適合於多個應用,包括文檔的文本相似度及顧客購物習慣的相似度計算等。

簽名的局部敏感hash 該技術可以允許我們避免計算所有集合對或其最小哈希簽名對之間的相似度。

距離測度: 距離測度是指滿足一定準則的定義在空間上的點之間的函數。如果兩個點重合,那麼距離爲0,否則,兩點的距離大於0.

  • 距離滿足對稱性,即兩個點不管孰先孰後,距離都一樣。距離測度必須要滿足三角不等式,即兩點的距離不大於這兩個點分別到第三個點的之和。

互聯網及web數據流量

互聯網當中的交換節點從很多輸入源接收IP包流並將它們路由到輸出目標。通常情況下,交換機的任務主要是傳輸數據而非保留或查詢數據。但是將更多功能放入交換機已經成爲一種趨勢。

指數衰減窗口 不同於採用固定窗口大小,可以將窗口想象爲所有到達的元素,但是對於t個時間單位之前到來的元素賦予的權重是ecte^{-ct}(其中c是個常數)。這樣做十分容易就可以保留一個指數衰減窗口的概要。例如,當一個新元素到達時,只需要將當前的求和值乘以1-c再加上當前元素的值即可。

指數衰減窗口下的高頻元素獲取可以將每一項都想象成由一個二進制位流表示的,其中0表示當前項不是給定時間到達的元素。當新元素到達時,將當前記錄的得分和乘以1-c後加1,並刪除所有和小於1/2的項。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章