本文原文：http://jm.taobao.org/2018/06/13/日誌採集中的關鍵技術分析/ （點擊下面閱讀原文即可進入）

概述

日誌從最初面向人類演變到現在的面向機器發生了巨大的變化。最初的日誌主要的消費者是軟件工程師，他們通過讀取日誌來排查問題，如今，大量機器日夜處理日誌數據以生成可讀性的報告以此來幫助人類做出決策。在這個轉變的過程中，日誌採集Agent在其中扮演着重要的角色。

作爲一個日誌採集的Agent簡單來看其實就是一個將數據從源端投遞到目的端的程序，通常目的端是一個具備數據訂閱功能的集中存儲，這麼做的目的其實是爲了將日誌分析和日誌存儲解耦，同一份日誌可能會有不同的消費者感興趣，獲取到日誌後所處理的方式也會有所不同，通過將數據存儲和數據分析進行解耦後，不同的消費者可以訂閱自己感興趣的日誌，選擇對應的分析工具進行分析。像這樣的具備數據訂閱功能的集中存儲業界比較流行的是Kafka，對應到阿里巴巴內部就是DataHub還有阿里雲的LogHub。而數據源端大致可以分爲三類，一類就是普通的文本文件，另外一類則是通過網絡接收到的日誌數據，最後一類則是通過共享內存的方式，本文只會談及第一類。一個日誌採集Agent最爲核心的功能大致就是這個樣子了。在這個基礎上進一步又可以引入日誌過濾、日誌格式化、路由等功能，看起來就好像是一個生產車間。從日誌投遞的方式來看，日誌採集又可以分爲推模式和拉模式，本文主要分析的是推模式的日誌採集。

推模式是指日誌採集Agent主動從源端取得數據後發送給目的端，而拉模式指的是目的端主動向日誌採集Agent獲取源端的數據。

業界現狀

目前業界比較流行的日誌採集主要有Fluentd、Logstash、Flume、scribe等，阿里巴巴內部則是LogAgent、阿里雲則是LogTail，這些產品中Fluentd佔據了絕對的優勢併成功入駐CNCF陣營，它提出的統一日誌層(Unified Logging Layer)大大的減少了整個日誌採集和分析的複雜度。Fluentd認爲大多數現存的日誌格式其結構化都很弱，這得益於人類出色的解析日誌數據的能力，因爲日誌數據其最初是面向人類的，人類是其主要的日誌數據消費者。爲此Fluentd希望通過統一日誌存儲格式來降低整個日誌採集接入的複雜度，假想下輸入的日誌數據比如有M種格式，日誌採集Agent後端接入了N種存儲，那麼每一種存儲系統需要實現M種日誌格式解析的功能，總的複雜度就是M*N，如果日誌採集Agent統一了日誌格式那麼總的複雜度就變成了M + N。這就是Fluentd的核心思想，另外它的插件機制也是一個值得稱讚的地方。Logstash和Fluentd類似是屬於ELK技術棧，在業界也被廣泛使用，關於兩者的對比可以參考這篇文章 Fluentd vs. Logstash: A Comparison of Log Collectors: https://logz.io/blog/fluentd-logstash/

從頭開始寫一個日誌採集Agent

作爲一個日誌採集Agent在大多數人眼中可能就是一個數據“搬運工”，還會經常抱怨這個“搬運工”用了太多的機器資源，簡單來看就是一個tail -f命令，再貼切不過了，對應到Fluentd裏面就是in_tail插件。筆者作爲一個親身實踐過日誌採集Agent的開發者，希望通過本篇文章來給大家普及下日誌採集Agent開發過程中的一些技術挑戰。爲了讓整篇文章脈絡是連續的，筆者試圖通過“從頭開始寫一個日誌採集Agent”的主題來講述在整個開發過程中遇到的問題。

如何發現一個文件?

當我們開始寫日誌採集Agent的時候遇到的第一個問題就是怎麼發現文件，最簡單的方式就是用戶直接把要採集的文件羅列出來放在配置文件中，然後日誌採集Agent會讀取配置文件找到要採集的文件列表，最後打開這些文件進行採集，這恐怕是最爲簡單的了。但是大多數情況日誌是動態產生的，會在日誌採集的過程中動態的創建出來, 提前羅列到配置文件中就太麻煩了。正常情況下用戶只需要配置一個日誌採集的目錄和文件名字匹配的規則就可以了，比如Nginx的日誌是放在/var/www/log目錄下，日誌文件的名字是access.log、access.log-2018-01-10…..類似於這樣的形式，爲了描述這類文件可以通過通配符或者正則的表示來匹配這類文件例如:access.log(-[0-9]{4}-[0-9]{2}-[0-9]{2})?有了這樣的描述規則後日志採集Agent就可以知道哪些文件是需要採集的，哪些文件是不用採集的。接下來會遇到另外一個問題就是如何發現新創建的日誌文件?，定時去輪詢下目錄或許是個不錯的方法，但是輪詢的週期太長會導致不夠實時，太短又會耗CPU，你也不希望你的採集Agent被人吐槽佔用太多CPU吧。Linux內核給我們提供了高效的Inotify的機制，由內核來監測一個目錄下文件的變化，然後通過事件的方式通知用戶。但是別高興的太早，Inotify並沒有我們想的那麼好，它存在一些問題，首先並不是所有的文件系統都支持Inotify，此外它不支持遞歸的目錄監測，比如我們對A目錄進行監測，但是如果在A目錄下面創建了B目錄，然後立刻創建C文件，那麼我們只能得到B目錄創建的事件，C文件創建的事件就會丟失，最終會導致這個文件沒有被發現和採集。對於已經存在的文件Inotify也無能爲力，Inotify只能實時的發現新創建的文件。Inotify manpage中描述了更多關於Inotify的一些使用上的限制以及bug。如果你要保證不漏採那麼最佳的方案還是Inotify+輪詢的組合方式。通過較大的輪詢週期來檢測漏掉的文件和歷史文件，通過Inotify來保證新創建的文件在絕大數情況下可以實時發現，即使在不支持Inotify的場景下，單獨靠輪詢也能正常工作。到此爲止我們的日誌採集Agent可以發現文件了，那麼接下來就需要打開這個文件，然後進行採集了。但是天有不測風雲，在我們採集的過程中機器Crash掉了，我們該如何保證已經採集的數據不要再採集了，能夠繼續上次沒有采集到的地方繼續呢?

基於輪詢的方式其優點就是保證不會漏掉文件，除非文件系統發生了bug，通過增大輪詢的週期可以避免浪費CPU、但是實時性不夠。Inotify雖然很高效，實時性很好但是不能保證100%不丟事件。因此通過結合輪詢和Inotify後可以相互取長補短。

點位文件高可用

點位文件? 對就是通過點位文件來記錄文件名和對應的採集位置。那如何保證這個點位文件可以可靠的寫入呢? 因爲可能在文件寫入的那一刻機器Crash了導致點位數據丟掉或者數據錯亂了。要解決這個問題就需要保證文件寫入要麼成功，要麼失敗，絕對不能出現寫了一半的情況。Linux內核給我們提供了原子的rename。一個文件可以原子的rename成另外一個文件，利用這個特性可以保證點位文件的高可用。假設我們已經存在一份點位文件叫做offset，每一秒我們去更新這個點位文件，將採集的位置實時的記錄在裏面，整個更新的過程如下：

將點位數據寫入到磁盤的offset.bak文件中
fdatasync確保數據寫入到磁盤
通過 rename 系統調用將
offset.bak更名爲 offset

通過這個手段可以保證在任何時刻點位文件都是正常的，因爲每次寫入都會先確保寫入到臨時文件是成功的，然後原子的進行替換。這樣就保證了offset文件總是可用的。在極端場景下會導致1秒內的點位沒有及時更新，日誌採集Agent啓動後會再次採集這1秒內的數據進行重發，這基本上滿足需求了。

但是點位文件中記錄了文件名和對應的採集位置這會帶來另外一個問題，如果在進程Crash的過程中，文件被重命名了該怎麼辦? 那啓動後豈不是找不到對應的採集位置了。在日誌的這個場景下文件名其實非常不可靠，文件的重命名、刪除、軟鏈等都會導致相同的文件名在不同時刻其實指向的是不同的文件，而且將整個文件路徑在內存中保存其實是非常耗費內存的。Linux內核提供了inode可以作爲文件的標識信息，而且保證同一時刻Inode是不會重複的，這樣就可以解決上面的問題，在點位文件中記錄文件的inode和採集的位置即可。日誌採集Agent啓動後通過文件發現找到要採集的文件，通過獲取Inode然後從點位文件中查找對應的採集位置，最後接着後面繼續採集即可。那麼即使文件重命名了但是它的Inode不會變化，所以還是可以從點位文件中找到對應的採集位置。但是Inode有沒有限制呢? 當然有，天下沒有免費的午餐，不同的文件系統Inode會重複，一個機器可以安裝多個文件系統，所以我們還需要通過dev(設備號)來進一步區分，所以點位文件中需要記錄的就是dev、inode、offset三元組。到此爲止我們的採集Agent可以正常的採集日誌了，即使Crash了再次啓動後仍然可以繼續進行採集。但是突然有一天我們發現有兩個文件居然是同一個Inode，Linux內核不是保證同一時刻不會重複的嗎?難道是內核的bug?注意我用的是“同一時刻”，內核只能保證在同一時刻不會重複，這到底是什麼意思呢? 這便是日誌採集Agent中會遇到的一個比較大的技術挑戰，如何準確的標識一個文件。

如何識別一個文件?

如何標識一個文件算是日誌採集Agent中一個比較有挑戰的技術問題了，我們先是通過文件名來識別，後來發現文件名並不可靠，而且還耗費資源，後來我們換成了dev+Inode，但是發現Inode只能保證同一時刻Inode不重複，那這句話到底是什麼意思呢? 想象一下在T1時刻有一個文件Inode是1我們發現了並開始採集，一段時間後這個文件被刪除了，Linux內核就會將這個Inode釋放掉，新創建一個文件後Linux內核會將剛釋放的Inode又分配給這個新文件。那麼這個新文件被發現後會從點位文件中查詢上次採集到哪了，結果就會找到之前的那個文件記錄的點位了，導致新文件是從一個錯誤的位置進行採集。如果能給每一個文件打上一個唯一標識或許就可以解決這個問題，幸好Linux內核給文件系統提供了擴展屬性xattr，我們可以給每一個文件生成唯一標識記錄在點位文件中，如果文件被刪除了，然後創建一個新的文件即使Inode相同，但是文件標識不一樣，日誌採集Agent就可以識別出來這是兩個文件了。但是問題來了，並不是所有的文件系統都支持xattr擴展屬性。所以擴展屬性只是解了部分問題。或許我們可以通過文件的內容來解決這個問題，可以讀取文件的前N個字節作爲文件標識。這也不失爲一種解決方案，但是這個N到底取多大呢? 越大相同的概率越小，造成無法識別的概率就越小。要真正做到100%識別出來的通用解決方案還有待調研，姑且認爲這裏解了80%的問題吧。接下來就可以安心的進行日誌採集了，日誌採集其實就是讀文件了，讀文件的過程需要注意的就是儘可能的順序讀，充份利用Linux系統緩存，必要的時候可以用posix_fadvise在採集完日誌文件後清除頁緩存，主動釋放系統資源。那麼什麼時候纔算採集完一個文件呢? 採集到末尾返回EOF的時候就算採集完了。可是一會日誌文件又會有新內容產生，如何才知道有新數據了，然後繼續採集呢?

如何知道文件內容更新了?

Inotify可以解決這個問題、通過Inotify監控一個文件，那麼只要這個文件有新增數據就會觸發事件，得到事件後就可以繼續採集了。但是這個方案存在一個問題就是在大量文件寫入的場景會導致事件隊列溢出，比如用戶連續寫入日誌N次就會產生N個事件，其實對於日誌採集Agent只要知道內容就更新就可以了，至於更新幾次這個反而不重要，因爲每次採集其實都是持續讀文件，直到EOF，只要用戶是連續寫日誌，那麼就會一直採集下去。另外Intofy能監控的文件數量也是有上限的。所以這裏最簡單通用的方案就是輪詢去查詢要採集文件的stat信息，發現文件內容有更新就採集，採集完成後再觸發下一次的輪詢，既簡單又通用。通過這些手段日誌採集Agent終於可以不中斷的持續採集日誌了，既然是日誌總會有被刪除的一刻，如果在我們採集的過程中被刪除了會如何? 大可放心，Linux中的文件是有引用計數的，已經打開的文件即使被刪除也只是引用計數減1，只要有進程引用就可以繼續讀內容的，所以日誌採集Agent可以安心的繼續把日誌讀完，然後釋放文件的fd，讓系統真正的刪除文件。但是如何知道採集完了呢? 廢話，上面不是說了採集到文件末尾就是採集完了啊，可是如果此刻還有另外一個進程也打開了這個文件，在你採集完所有內容後又追加了一段內容進去，而你此時已經釋放了fd了，在文件系統上這個文件已經不在了，再也沒辦法通過文件發現找到這個文件，打開並讀取數據了，這該怎麼辦?

如何安全的釋放文件句柄?

Fluentd的處理方式就是將這部分的責任推給用戶，讓用戶配置一個時間，文件刪除後如果在指定的時間範圍內沒有數據新增就釋放fd，其實這就是間接的甩鍋行爲了。這個時間配置的太小會造成丟數據的概率增大，這個時間配置的太大會導致fd和磁盤空間一直被佔用造成短時間自由浪費的假象。這個問題的本質上其實就是我們不知道還有誰在引用這個文件，如果還有人在引用這個文件就可能會寫入數據，此時即使你釋放了fd資源仍然是佔用的，還不如不釋放，如果沒有任何人在引用這個文件了，那其實就可以立刻釋放fd了。如何知道誰在引用這個文件呢? 想必大家都用過lsof -f列出系統中進程打開的文件列表，這個工具通過掃描每一個進程的/proc/PID/fd/目錄下的所有文件描述符，通過readlink就可以查看這個描述符對應的文件路徑，例如下面這個例子:

tianqian-zyf@ubuntu:~$ sudo ls -al /proc/22686/fd
total 0
dr-x------ 2 tianqian-zyf tianqian-zyf  0 May 27 12:25 .
dr-xr-xr-x 9 tianqian-zyf tianqian-zyf  0 May 27 12:25 ..
lrwx------ 1 tianqian-zyf tianqian-zyf 64 May 27 12:25 0 -> /dev/pts/19
lrwx------ 1 tianqian-zyf tianqian-zyf 64 May 27 12:25 1 -> /dev/pts/19
lrwx------ 1 tianqian-zyf tianqian-zyf 64 May 27 12:25 2 -> /dev/pts/19
lrwx------ 1 tianqian-zyf tianqian-zyf 64 May 27 12:25 4 -> /home/tianqian-zyf/.post.lua.swp

22686這個進程就打開了一個文件，fd是4，對應的文件路徑是 /home/tianqian-zyf/.post.lua.swp 。通過這個方法可以查詢到文件的引用計數，如果引用計數是1，也就是隻有當前進程引用，那麼基本上可以做到安全的釋放fd，不會造成數據丟失，但是帶來的問題就是開銷有點大，需要遍歷所有的進程查看它們的打開文件表逐一的比較，複雜度是O(n)，如果能做到O(1)這個問題纔算完美解決。通過搜索相關的資料我發現這個在用戶態來做幾乎是沒有辦法做到的，Linux內核沒有暴露相關的API。只能通過Kernel的方式來解決，比如添加一個API通過fd來獲取文件的引用計數。這在內核中還是比較容易做到的，每一個進程都保存了打開的文件，在內核中就是struct file結構，通過這個結構就可以找到這個文件對應的struct inode對象，這個對象內部就維護了引用計數值。期待後續Linux內核能夠提供相關的API來完美解決這個問題吧。

總結

到此爲此，一個基於文件的採集Agen涉及到的核心技術點都已經介紹完畢了，這其中涉及到很多文件系統、Linux相關的知識，只有掌握好這些知識才能更好的駕馭日誌採集。想要編寫一個可靠的日誌採集Agent確保數據不丟失，這其中的複雜度和挑戰不容忽視。希望通過本文能讓讀者對日誌採集有一個較爲全面的認知。

日誌採集系統都用到哪些技術？

概述

業界現狀

從頭開始寫一個日誌採集Agent

如何發現一個文件?

點位文件高可用

如何識別一個文件?

如何知道文件內容更新了?

如何安全的釋放文件句柄?

總結

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

Uber 如何使用 Apache Hudi 支撐 PB 級數據湖

你要的 Spark AI Summit 2020 PPT 我已經給你整理好了

年薪40w的大數據開發，它不香麼？

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就錯了。

Redis 集羣原理，再也不怕面試被問倒

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結