爲什麼說數據管理的下一步是DataOps

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"根據信通院數據,2019年,我國數據產量總規模爲3.9ZB,同比增加29.3%,佔全球數據總產量(42 ZB)的9.3%。而IDC中國預測,2025年中國大數據產生量有望增長至48.6 ZB,這已經超過了2019年全球數據量的水平。這對大數據行業來說,既是機遇,也是挑戰。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"越來越大的數據量,加上數據敏感和脆弱等的特點,數據治理一直都是一個困擾企業發展的問題。有開發者表示,每個人都在談論數據治理,卻沒有人真正知道該怎麼辦。爲此,InfoQ採訪智領雲聯合創始人和CEO 彭鋒博士 ,一起聊聊數據治理和大數據行業裏的那些事兒。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"數據治理有哪些難點"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:在現在的企業數據治理上存在哪些痛點?爲什麼會出現這些問題,以及當前情況下是怎麼解決的?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:數據治理和數據開發一直都是困擾着企業的難題。Google最近發了一篇文章表示,雖然Google在AI算法上非常厲害,但如果大家都只想搞算法,沒人想去搞數據,那算法是沒有用的。比如進來個髒數據,算法一點用都沒有。但搞數據的工作,大家都認爲很“髒”、很費神,算法更高大上。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"數據的治理和數據質量非常重要,整個數據開發流程也非常重要。算法是最後讓數據產生價值的很重要的一部分,但是如果沒有前面的準備工作,那麼數據質量和數據開發效率就無法保證,後面算法也發揮不了作用。很多公司,包括Google、Twitter和Facebook,他們的算法之所以有那麼大的作用,就是因爲他們數據的基礎架構做得好,所以他們才能保證算法的有效性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"那麼這個難度在哪呢?現在,數據管理、治理工具和數據治理體系暫時還沒有一個成形的體系,所有公司的數據質量、數據開發工具基本都是拿開源組件自己臨時搭建。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"整個數據的測試流程中,大家很少聽說數據有CI\/CD,數據有沒有CI\/CD?數據的ETL程序有沒有CI\/CD?數據開發完了在哪測試?能不能在生產數據上測試呢?如果程序是對的,那數據改變後我的程序語義還能夠保證它的正確性嗎?企業在實際生產時,這些問題都是在大規模使用數據時會經常碰到。由於數據的使用,大家覺得大數據好像搞了很多年,但其實到現在大數據的基礎才逐漸成熟,大家也才意識到,數據組織後的數據質量是更重要的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"所以,我覺得現在正是將數據質量、數據治理和整個數據開發體系的工具提到前臺的好時機。以前數據基礎還沒有成熟,提這個可能有點早,但現在越來越多的企業,特別是頭部企業發現了這個問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"硅谷的很多公司,包括在國內的頭部公司,他們早就遇到了這些問題,他們自己內部肯定是有解決方案的。產品化的事情也有人在做,大家現在看到的開源工具裏像Spark、Kafka都很成熟,做得都很好。但是,像DataOps這種跟企業的底層數據情況和數據的基礎架構緊密相關的工具比較少,DataOps工具剛剛出現,現在也才獲得大家的關注。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"什麼是DataOps"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:現在越來越多的技術和廠商都在產品中會提到DataOps,但是可能目前大家對DataOps定義還沒有很統一的定義。那麼,到底什麼是DataOps?爲什麼它現在會被很多企業青睞?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:DataOps是從DevOps借鑑的一個理念。可以理解爲DataOps是把DevOps的一些理念映射到了數據開發上,它們的很多觀點是可以一一對應的,如開發及運維、雲原生、微服務化、CI\/CD,這些都可以在DataOps裏找到,如果你的DevOps裏沒有這些概念,就要考慮下你的開發流程是不是符合最佳實踐。但DataOps與DevOps也有區別。DataOps是想處理數據,而在DevOps裏是不需要處理數據的,它主要是做應用的開發,應用的CI\/CD、發佈及運維。但就像剛纔說的,DataOps實際上屬於一個比較早期的概念,大家對它的解讀還是會有不一樣。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在DataOps裏面有很重要的一點,就是要處理數據的各種不可預知性。數據語義是一個難題,它沒辦法在CI\/CD裏被容易定義,不是沒有辦法,但很困難。之前大部分原生大數據組件開發時並沒有考慮到這個規範。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DevOps也經過了很長一段時間的演變,像Git逐漸成爲規範,微服務基本上都是標準的組件。大數據組件體系架構特別多、選擇特別多,發展也特別快,現在的Spark、流數據,Flink,卡夫卡,底層基本上也是K8S、Hadoop和Hdefs,這些基本上可以形成標準化。那麼,現在就是做DataOps一個比較好的時候。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DataOps的工作主要有五個方向。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第一個是任務調度。主要包括雲原生調度、容器的調度,這跟DevOps是一樣的。第二個是數據安全。數據安全以前基本不在DataOps的考慮範圍,也不在數據開發的範圍內,但現在數據安全很重要。第三個就是數據管理和數據門戶。大家可能會說原數據管理不都好多年了,但以前的原數據管理主要是針對關係型數據庫,關係型數據庫對原數據的管理相對容易,只要到數據庫裏把原數據爬出來就可以。但現在有流數據、非結構化數據,還有TaiDB等,各種各樣的原數據怎麼樣去管理?血緣管理更復雜了。之前是幾個SQL之間的血緣管理,現在關係到各種各樣的查詢、各種各樣的系統、數據門戶跟MapDatas是一樣的。第四是數據檢測的可視化。DevOps裏有很多可監測到的指標,數據層面也一樣。用多少資源、花多少時間、創造了多少價值,之前都是一個黑盒子,但DataOps的整個數據都是端到端的,相關指標可觀測、可管理。第五就是集成開發。所有的工具必須是可集成的,不可能做一個工具負責血緣管理,再做一個工具負責調度。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我認爲,DataOPS裏面必須具備這五個工具體系,如果你的DataOps體系裏面缺了任何一個,我都覺得是不完善的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:DataOps如何做持續測試?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:數據開發、數據程序的測試一直是老大難問題,甚至頭部大廠整套流程做下來也是現在非常困難的。現在DevOps裏有一個很有意思的觀念,就是把集訓資源的管理全部用Code來管理,大數據也一樣。美國有一個很火的公司叫DTB,它是要把所有的ETL(數據倉儲技術)流程做成代碼管理,將SQL的所有轉換變量化、代碼化,將所有ETL程序間的關係、血緣全部用代碼的形式來進行管理。可以說,不只SQL是代碼,整個調度也都是代碼。所以,DBT的整個ETL程序可以被放到Git裏面。用戶可以在指定的data  source的測試環境中可以測試,可以到Data生態環境中直接切換一個Data  source,將其變成生產環境,所以它允許支撐ETL流程的CI\/CD。將所有ETL程序之間的依賴全部代碼化,這就是DTB的一個思路。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"除了ETL之外,我們現在做的事就是把所有大數據組件裏面的關係、程序全部代碼化,這是未來的必然趨勢。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"DataOps與雲原生數據中臺的關係"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:DataOps與雲原生數據中臺是什麼樣的關係?他們目前各自的發展情況如何?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:國內數據中臺也提了兩三年了,有成功的案例也有失敗的。我們在這方面也做了很多探索。我們的觀點是,數據中臺絕對要做,但DataOps是實現數據中臺的一個最好的方法論和工具體系。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這跟DevOps是一樣的。一個業務系統可以使用DevOps方法來做,也可以使用傳統方法去做,兩種方法最後做成的業務系統可能都差不多,但這只是開始的時候差不多,後面的持續迭代、持續運維的時候,就能看出來DevOOps的優勢了。數據中臺也是一樣,它是給大家提供一個數據開發和運營的底座,開始你可以用各種各樣的方法去做一個數據平臺,但是後續迭代和不斷髮展的時候,DataOps就成爲最合適的一種方法。DevOps提倡的是賦能和自助,通過CI\/CD持續發佈,開發工程師自己來做運維測試,DataOps也一樣,也是提供工具讓各個業務部門等數據使用者,能夠在中臺上拿到自己需要的功能。我們認爲這是DataOps和數據中臺的關係。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:企業如何去做雲原生數據平臺的改造?整個過程可能會面臨哪些問題?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:我覺得,現在雲原生的數據中臺還是一個比較有挑戰性的課題,但也是個必然的趨勢。很多企業的數據平臺效率非常低,因爲傳統大數據平臺使用的Hadoop、卡夫卡等都不是在雲原生的方式下開發,資源使用效率低、管理複雜,但云原生會大大降低整個系統的管理複雜度,提高系統的使用效率和運營效率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這個過程中會面臨的困難,主要是人才問題。這個技能的門檻比較高,需要研發既懂雲原生又懂新技術,這樣的人才缺口還是挺大的。但這也有個好處就是,雲原生產品的標準化程度比較高,這樣容易做出標準化的產品讓大家使用。舉個例子,以前裝一個大數據平臺需要直接面對底下的物理及虛擬機,但各種各樣的配置,不同的操作系統、環境和網絡,所有這些都得去管理。K8S的出現就讓大家不必再考慮所有的底層組件,只要跟雲原生這個體系對接就可以了。這是一個很好的機會,所有的企業一定會看到,但這個過程肯定是需要時間的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:您之前多次提到過“數據中臺方法論”,這個方法論具體都包含哪些內容?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:這個方法論的主要目的就是追求效率。我們國內很多客戶的大數據平臺的資源使用率大概都是15%-20%,但Twitter的自然使用率一般能達到50%-60%,而且還有各種各樣的彈性擴展、自動容錯等雲原生功能。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"瞭解這個之後,需要做到以下四點:"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第一,選擇合適的工具和平臺。這個是基礎,選不到合適的架構工具,也就不存在效率了,所以如何選擇合適的平臺工具很重要。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二,要有一個完善的頂層架構設計。因爲數據平臺要把大家的數據接進來,與業務系統對接起來才能產生效果。DevOps分佈式的開發,集中式的管理,但這個集中式管理不是靠人,而是靠體系和工具。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三,業務驅動。爲了大數據而大數據一般成功不了,一定是可以解決業務問題的才能走到最後,解決不了業務問題的數據平臺是僞命題。解決業務痛點之後,還要賦能業務。要把業務部門引入進來,不斷使用這個數據平臺,獲得業務部門認可後這個東西才能走。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第四,要有價值衡量體系。如何量化產生的價值,很困難但是也很重要。我們一般要求決策方、業務方,技術方和數據平臺等各方面職責明確,避免後面出現越來越多的問題。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"DataOps應用"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:2018年,高德納把DataOps納入了技術管理成熟體系曲線裏面,DataOps被正式接納和推廣。三年過去了,目前有什麼成熟的應用案例出來嗎?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:DataOps在雲原生出來之前就有,但可能沒有叫這個名字。頭條、騰訊等大廠們都有自己的一套DataOps體系,Twitter等硅谷公司也有,那爲什麼現在才提出來?因爲這個東西要產品化。雖然大廠都有DataOps體系,但是將近一百人的數據團隊,eBay大概有三百多人,一般企業很難請得起這麼多高薪的人才。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"現在DataOps火了是因爲大家都需要,數據價值不是大廠獨有的。但橫梗在前的成本問題怎麼解決?這就需要DataOps工具將數據價值開發平移化。爲什麼稱爲雲原生的DataOps?因爲只有雲原生技術統一了各種各樣的硬件環境、開發環境、發佈環境、運維流程等等之後,DataOps纔可以將聚焦在數據開發、數據監控、數據管理、原數據和數據安全上。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:您在Twitter的時候,一個主要職責就是讓公司所有的人避免重複開發數據組件。這個需求是在一個什麼樣的背景下產生的?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:這個就是很重要的不要重複造輪子的問題。重新造輪子會造成資源消耗,然後減慢開發速度。要避免不重新造輪子,那麼就必須知道現在有什麼“輪子”,但很多企業並不知道自己有什麼“輪子”。DataOps很重要的一點就是原數據管理,它的原數據管理比原來的要更廣泛,它可以知道整個企業有什麼樣的數據功能。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"更重要的是,企業重新造輪子,一旦兩個輪子造得不一樣,會把這個車開垮。我們原來做數據門戶,就要求所有的業務部門和數據分析師必須做統一的接口,然後發現有兩個部門就在重複造輪"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:DataOps會有開源生態嗎?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:目前是逐漸成熟的過程中,還沒有成熟到大家都可以使用的端到端產品。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們之前公衆號有篇文章講到,硅谷的大概十幾家公司,每個公司都有自己的數據門戶和產品,但是沒有成熟的產品。今年6月份左右,Linking將自己的數據門戶產品開源了,也有人在做血緣管理,但都是這兩年纔起來的公司。這個生態在逐漸形成,但是遠遠沒有到達成熟的階段。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:現在,DataOps還解決不了哪些問題?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:我覺得,當前DataOps沒辦法解決業務價值的挖掘問題。DataOps實際是降低了數據使用門檻,讓更多的業務人員可以直接開發他們需要的數據並將這個開發成果給大家使用,這在以前必須要依賴數據科學家或者數據工程師。但是,如何把這些數據與業務結合起來、用數據去促進業務,這不是DataOps能回答的問題。我們只是賦能,但是真正怎麼樣讓你的數據去促進企業的業務發展,那一定需要企業懂自己的業務。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"數據行業人才缺乏"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:企業在使用DataOps的時候,應該如何組建這樣的一個團隊呢?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:DataOps工具並不是要取代數據工程師、數據科學家,或者DBA和數據分析師,它讓他們更有效率,我知道在座的不知道有多少是這個數據科學家,或者是數據工程師。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"除了DBA,數據行業一般有三個比較重要的角色:數據工程師,負責搭建數據平臺;數據科學家,研究數據的潛在價值,用學習模型來形成用戶畫像、產品推薦或自動異常檢測等;數據分析師,更多從業務角度做數據分析。但是最近出現了一種職業叫機器學習工程師,他們的任務是提高算法效率,把數據科學家們開發的模型以生態化的形式,更高效地完成。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:這些人對DataOps是什麼態度呢?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:他們當然歡迎。以前數據科學家和數據分析師發佈任務時要依靠數據工程師幫他們寫ETL任務,現在DataOps可以幫助他們自動完成。我們就是讓大家可以睡個好覺,讓每個人的聰明才智可以發揮在他最能發揮的地方,而不是整天吐槽後臺、吐槽系統。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:數據管理這一類的崗位,人才供給情況怎樣?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:現在很缺,非常缺。這個行業需求本來就比較大,加上要做數字化轉型,同時門檻比較高,進入這個行業基本不愁找不到工作。同時這個行業裏,經驗非常重要,越有經驗越喫香。中國美國都一樣,所有想做數據項目的第一個問題就是找不到人。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"數據安全還是要靠規範"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:中國和美國的大數據市場有哪些不同?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:我覺得現在的差別已經不大了。現在國內的新型企業很追求效率的追求,對先進的方法論也很認可,這個跟美國的公司基本上沒有太多區別。雖然我也沒有太多接觸過美國的傳統企業,但是美國傳統企業接觸這種理念其實也都比較緩慢。但國內新興的企業、企業家們,都很認可數據價值,認可雲原生理念,也認可專業的企業服務。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"要說區別的話,主要還是體現在兩邊的商務模式上。在美國,數據工程師、數據科學家有很大的採購權,幾萬美元、十幾萬美元產品都是實際做事的人來採購。但在中國,採購的決定權是從上往下的。這也是爲什麼美國的開源比中國的更賺錢,開源打的就是中間這層真正使用的人,他們可以直接報告說需要這個開源公司來提供服務,上面一批就完了。但中國企業要申請個幾十萬的項目,就得從上往下批。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:國內市場發生了哪些變化?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:以前大家做大數據好像是因爲這個是一個風口,現在沒人是爲了大數據而大數據,大家都認可了大數據真的能夠產生價值,沒有人會懷疑大數據的價值。但是大家對大數據怎麼落地還不是很清楚。所以,我覺得如何做出更好的工具降低門檻,更快地產生數據價值是現在企業面臨的一個挑戰。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這幾年,因爲大家對雲原生技術的認可、對開源體系的擁抱,國內的技術生態比以前更加有活力。大家尤其認識到了開源對整個行業的推動作用,很多開源公司也取得了很好的成績。我們雖然現在沒有產品開源,但我們也有開源計劃,希望能夠爲整個技術發展做一些貢獻。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:去年的大數據藍皮書也顯示了一個數據,中國的數字經濟指數在G20國家中排名第一,但安全指數排到了14。據您的觀察,目前國內在數據安全治理方面存在哪些問題?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:數據安全費錢,不產生直接價值,一般企業都不願意做這個事。比如要把幾千臺機器裏面所有關係到用戶私有信息的數據集全部找出來,這件事產生不了任何積極價值,但它是非常重要的。Twitter上市的時候,我負責做數據合規時,整個團隊花半年多的時間做數據治理,投入相當大。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這就一定需要用規範來要求企業數據必須合規,這也是行業發展到一定階段需要處理的事情。數據不規範可能無法出國做生意,老百姓也就沒有安全感。對DataOps來說,企業可以直接把合規的規則實現在DataOps體系裏,讓數據質量等工具幫助企業完成一些合規檢查。但合規是與行業緊密相關的,比如銀行的數據要合規,那麼就會有專業團隊把銀監會合規的標準轉換成ETL查詢工具,再轉成合規報告。所以,合規會納入到DataOps這個體系裏面來,但是需要專業的團隊來做。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:最近發佈的《數據安全法》對大數據企業有什麼影響?企業如何加固數據安全?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:我覺得是好事。所有的企業必須要注重自己的數據合規和數據使用方式。這對大數據企業來說是好事。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"傳統方式做數據合規管理比較困難。我們觀察到,很多企業使用的Hadoop是不安全的,因爲一旦用了安全的Hadoop,還得用安全的卡夫卡、安全的Spark等,所有的組件都要是安全化的,那麼管理的複雜度要高很多。企業在建設之前,就應該把數據安全、數據合規問題考慮進去,後面補課是比較困難的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Q:大數據行業現在面臨着哪些挑戰?未來的發展形勢如何?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"A:大數據還是需要規範,需要一把手的認可和支持。現在很多企業的一把手知道數據的價值,但是不知道該招什麼樣的人,該怎麼樣去推進數據項目的落地,使其真正產生價值。國內現在對數據平臺價值的衡量還是一個黑盒子,一個大數據平臺到底產生了多少價值沒有辦法衡量。所以一把手的思路和對整個數據架構的規範體系建設,決定了很多大數據平臺的發展。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"未來是AI的世界,AI的底層就是數據。不管是個人成長還是公司的成長、企業的成長,基本上都是數據驅動,數據驅動讓生活更高效、生產更高效,放大個人價值。這是一個很值得投入的行業。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/video\/FtCuZqEmXV91XQ7iyq6O?utm_source=home_video&utm_medium=video","title":"xxx","type":null},"content":[{"type":"text","text":"點擊此處查看視頻,含有更多精彩內容"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章