很多的朋友對於PowerQuery 的理解是Excel 中進行我們數據集成的功能而已,在很多的業務場景,大家也更傾向於將業務數據導入到Excel 進行處理,但是如果我們導入的數據源來自於以下的數據源該怎麼辦?
- Oracle
- MYSQL
- JSON
- PostSQL
很多朋友肯定說,這些數據在Excel 默認的數據源中不支持,我們就可以建立相關的ODBC鏈接到相關的數據庫,然後Excel 調用ODBC 就可以了?真是這樣嗎?如果系統沒有帶有ODBC 到目標數據源的咋辦,我們需要安裝一些連接器,然後還要考慮兼容性。是不是特別複雜?
我們知道Excel的最大的數據行數爲104萬左右,如果我們有1TB的數據,一共有4000萬行,遠遠超過104萬行,這時候怎麼辦呢?很多朋友說,這貌似沒有辦法吧。
基於上面種種特別需求,微軟又開發出了一門新的語言,這門語言是什麼呢?M 語言,很多人以爲是Microsoft 語言。其實這麼理解也沒錯,但是真正的全稱爲Mushup Language。英文好的朋友肯定一眼就知道這是數據處理的語言。Mushup 語言使用的場景特別多,下面就是我們未來可能需要使用到M 語言的地方:
- Excel 的數據集成與處理
- PowerBI 的數據集成與處理
- SSAS 分析服務,這個是SQL Server 裏面一個非常重要的組件
- SSIS 數據集成服務
- Office 365 的Flow產品
- Azure 的 Data Factory
目前我們使用的比較多的還是Excel的PowerQuery 組件和我們的PowerBI 的PowerQuery 組件。我們本系列文章也主要是基於Excel的PowerQuery和PowerBI的Query 組件。
我們知道數據從RAW的數據處理階段到最終數據完成最終展現的過程有以下幾個階段:
- 數據獲取和清理