AKG:攻擊者知識圖譜(轉載)

https://mp.weixin.qq.com/s/tDJJOfwac5NAick15lS7-A

AKG:攻擊者知識圖譜
原創 404 Not F0und 404 Not F0und 2022-03-12 18:00
圖片
知識圖譜

知識圖譜(Knowledge Graph,KG)由Google於2012年正式提出,致力於以結構化的形式描述客觀世界中實體及其之間的關係;從表現形式看,可以簡單理解爲多關係圖;被認爲是從“感知智能”向“認知智能”發現的一個重要里程碑。

按時間邏輯關係,可以分爲:離線部分和在線部分。離線部分通過知識構建、知識獲取、知識存儲,生成知識圖譜,而在線部分使用知識圖譜去做知識查詢、知識表示、知識推理。

首先,知識建模。知識圖譜是由實體和關係組成,通俗地說是由點和邊組成。首先進行知識建模,確定知識圖譜包括哪些實體,以及實體和實體之間具有什麼樣的關係。

其次,知識加工。這一步目的是獲取結構化數據。無論是通過爬蟲爬取現成的結構化數據,還是通過CRF、HMM等傳統統計模型,亦或是NN-CRF等深度學習模型,去從半結構化和非結構化數據中,識別出實體,進而轉成結構化數據。

將結構化數據填充入知識圖譜的方法大致有兩種,一是分兩階段提取,先提取實體,再提取關係。二是聯合提取,直接提取實體和關係。在加工的過程中,可能有幾個問題需要我們去解決。拿第一種方法來說,首先需要從結構化數據中提取實體,即點,實體數據可能會有很多噪聲,比如近義詞、歧義。所以需要利用自然語言處理技術對實體進行融合、鏈接。然後需要從結構化數據中提取關係,即邊,關係抽取可以依賴NLP技術或者少量人工標註的弱監督,例如遠程監督算法去完成。

最後是知識存儲。圖存儲相較於關係型存儲,是從下到上建設,上層一開始很難有固定的計算範式,底層圖是一種更靈活的結構。具體的圖數據庫或圖存儲,在公司內部有iGraph、GeaBase、MaxGraph、GraphDB等。其中iGraph不是嚴格意義上的圖數據庫,是查詢引擎。GeaBase是螞蟻的查詢、存儲引擎。GDB,是在線實時圖數據庫。

離線部分到這裏就粗略講完了,知識圖譜已經構建完畢,下面講一下在線部分,即知識圖譜的應用。

首先是知識查詢。知識查詢比較簡單,給定一個切入點,從整個知識圖譜中查詢出相關實體數據,再進行擴線查詢一度關係、多度關係。

其次是知識表示。其實說到底無論是知識圖譜,還是自然語言處理,再或是傳統的機器學習,這些上層領域的應用都需要依賴知識的表徵,只不過不同領域的術語不一樣罷了,本質都是在做數據的向量化表徵,知識圖譜中是利用圖embedding達到知識表示這個目的。

最後是知識推理。相較於單純的知識查詢,知識推理是最具有想象力的技術。因爲知識查詢不會產生新知識,都是知識圖譜中有的。而知識推理可以通過圖譜中已知的實體/關係/屬性等,推測出隱藏在圖譜多度關係之後的隱含知識。例如可以基於邏輯規則的FOIL/PRA算法、基於距離表示的TransX系列算法、基於圖神經網絡的DeepWalk/HeGNN算法等去做實體推理、邊推理。推理出的實體屬性、邊,是新知識,先前不存在的知識。
安全知識圖譜

基礎安全領域,安全知識圖譜主要有APT組織圖譜、網絡空間測繪圖譜、漏洞知識圖譜、惡意樣本知識圖譜、軟件供應鏈安全圖譜、攻擊路徑推理圖譜等。

其中APT組織圖譜的實體是STIX框架定義的實體,舉個例子:NSA利用永恆之藍漏洞發起攻擊。那麼威脅主體是NSA,攻擊工具是Metasploit,攻擊模式是永恆之藍漏洞攻擊,漏洞是CVE-2017-0143,應對措施是關閉445端口。其數據來源主要是APT報告。對於乙方安全來說,尚且可以投入,但對於甲方安全來說,可落地性、實際價值不高。

再比如漏洞知識圖譜,實體是漏洞、資產、軟件、操作系統、攻擊,關係有子類、含有、使用,定義出來的本體模型:

圖片

其數據來源是各種漏洞庫,攻擊來源是諸如OWASP、SRC之類信息安全網站。場景可落地性還可以,兼顧實際價值,適合大甲方、乙方安全投入,不適合中小甲方安全。

業務安全領域,知識圖譜的安全應用主要有基於實體推理、邊推理的的賬戶風控、轉賬交易風控、內容安全等等。

舉兩個例子,實體推理可以應用到個人或企業主體賬戶的風控,根據已有風險賬戶和關係,推理出其他賬戶是否是風險賬戶。

邊推理可以應用到業務轉賬風控中,一次轉賬的發起,以往風控可能通過發起方和接收方的設備維度信息,或者兩方間是否存在朋友或者轉賬的直接關係,去判斷轉賬是否可信。現在藉助邊推理技術,可以推理出你朋友的朋友的朋友是你的朋友,或者推理出你對陌生人的轉賬,陌生人是你多年未聯繫的老同學,還是詐騙犯。

上面這些應用場景看上去五花八門,但實際上都是一樣的套路:將安全問題轉化爲知識圖譜問題,定義知識結構,填充數據。在這個過程中,知識圖譜最大的價值體現是作爲一個標準範式,融合多源異構數據,有希望作爲一個數據中心、決策中心。
攻擊者知識圖譜

攻擊者知識圖譜(Attacker Knowledge Graph,AKG),目的是數字化攻擊者,發現頭部攻擊者、羣體、攻擊活動,提升防守方對攻擊方發起威脅的對抗能力。

攻擊者知識圖譜是基於威脅情報相關標準之一的STIX框架(Structured Threat Information eXpression,結構化威脅信息表達式)魔改、填充知識而成,還在不斷優化。回過頭來看,最大的挑戰反而不在於框架性實體和關係的定義,而在於很樸素的一點:數據,貼合本企業的真實、高價值、安全數據的長期沉澱,匯聚的數據渠道、種類、量級越多,越能發揮出1+1>2的效果。

當前AKG主要包括10+個節點,40+條邊,節點主要有攻擊主體、身份、硬件設備、網絡環境、攻擊工具、漏洞、惡意軟件、攻擊模式、攻擊活動、攻擊指示、受害者等,邊主要有身份利用攻擊指示和惡意軟件、攻擊指示攻擊過受害者、攻擊指示指示工具等。

知識構建階段:知識建模效果圖

圖片

知識加工階段:根據先前知識建模階段定義的知識結構,有目的性地獲取各個維度的數據。另外,考慮到投資回報比,我們分階段獲取知識,先易後難。第一個階段相對簡單,按照攻擊者數字化維度的需求,從團隊內外獲取所有能獲取到的資源,這部分資源主要是已經經過處理的單點、高價值、結構化數據,比如ioc數據,各類安全產品的告警運營數據,稍作加工即可使用,例如基於安全產品攔截數據可以產出攻擊者身份維度信息。需要注意的是這個階段會考驗溝通協調能力,在這裏感謝團隊內部、主站安全團隊和阿里雲安全團隊師傅們、各個外部安全情報廠商的理解和支持。

第二個階段相對複雜,因爲不可能什麼都是現成的。需要依賴數據智能和機器智能技術,清洗原始數據,預測提取出攻擊者各個維度的結構化數據。比如工具維度,主站安全同學支持了常見黑客工具的識別,在此基礎上,我們訓練機器學習算法對機器攻擊進行了識別。比如攻擊源維度,我們訓練攻擊聚類算法,試圖從海量攻擊數據中找到它們的共性,結果也有了一些發現。再比如漏洞維度,當前獲取結構化CVE情報需要依靠官方和第三方廠商例如snyk,時間滯後且不可控。因此我們把從非結構化CVE數據中提取結構化數據的安全問題轉化爲了自然語言處理領域中的經典任務:命名實體識別。基於經典神經網絡可以實時從CVE描述性文本中預測出漏洞影響的產品名和版本號實體信息。

有了上面這些個單點結構化數據,還需要根據先前知識建模階段定義的知識結構,對點與點進行關聯分析構建邊關係。如果只是對邊界安全做攻擊者畫像的話,一般用來源ip進行關聯。如果是全鏈路的話,會變複雜很多。比如一個RCE穿透過邊界安全防護、生產網防護,在機器上成功執行黑客命令,就需要從命令等維度進行關聯。

當完成了上面兩個階段,數據就分門別類地匯入到知識圖譜中,變成了知識。

知識存儲階段:攻擊者知識圖譜依賴網商獨立化部署的知識圖譜平臺知蛛,不用操心圖存儲、圖計算等底層知識存儲能力,可以專注於做上層的分析和推理。

離線攻擊者知識圖譜到這裏構建完畢,此時,我們已經將所有歷史知識和專家經驗知識,按照一定的標準化結構,打入到了AKG。下面是在線部分。

知識查詢:攻擊者知識查詢,只需要一個切入點信息,就可以查詢出所有相關的歷史知識,無論是在溯源排查,還是威脅研判,都可以被廣泛應用。因爲這屬於降維打擊,用一個面的知識,對抗你一個個點狀知識。比如根據我的支付寶ID進行知識查詢,可以得到所有的一度關係,然後可以擴展得到二度關係,以此類推。

圖片

知識表示和知識推理,強依賴Gremlin語法、圖的embedding、圖神經網絡算法等技術,尚處於探索階段,推測可以用於高危攻擊及攻擊者羣體發現。

攻擊者知識圖譜作爲一個數據中心,觸達的數據五花八門,有應用層的流量數據、端上數據、各系列安全產品防禦數據、各安全項目建設及運營產出數據、螞蟻安全數據、集團安全數據、阿里雲威脅情報數據、金融行業情報數據、三方外採情報數據等。從數據流通的角度,攻擊者知識圖譜作爲一個情報交換中心,用數據流聯動各個防禦節點,提升安全產品單點防禦能力和整體安全防線水位。當數據累積到一定量級,可能完成數據、情報中心向決策中心的進化。

Ref

安全場景知識圖譜應用(作者:綺琛)

安全知識圖譜技術白皮書《踐行安全知識圖譜,攜手邁進認知智能》(作者:綠盟科技)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章