原创 新手小白第一次構建spark
寫在前面 Building Spark官網寫的明明白白。看別人博客不如官網來的權威,我這篇文章僅僅記錄本人編譯spark源碼的過程,不用於任何指導,有興趣就看,沒興趣就可以到此結束了。跟着官網步驟去操作吧。 工具: Idea2020.1
原创 用python做數據分析-NumPy篇
1.ndarray數據結構 2.創建ndarray 3.ndarray的數據類型 4.數組和標量之間的運算 5.基本的索引 6.通用函數 7.利用數組進行數據處理 8.輸入輸出 NumPy(Numerical Python的簡稱)是高性能
原创 Tableau 同比、環比
1. 環比 以示例-超市爲例: 在聚合字段上右鍵-添加表計算-百分比差異。 環比公式: (ZN(SUM([銷售額 (複製)])) - LOOKUP(ZN(SUM([銷售額 (複製)])), -1)) / ABS(LOOKUP(ZN(SUM
原创 python多任務並行
1、concurrent.futures concurrent.futures模塊提供了一個用於異步執行callables的高級接口。 這裏面有三個重要的類。 concurrent.futures.Executor 一個抽象類,提供異步
原创 curl命令
curl命令是一個利用URL規則在命令行下工作的文件傳輸工具。它支持文件的上傳和下載,所以是綜合傳輸工具,但按傳統,習慣稱curl爲下載工具。作爲一款強力工具,curl支持包括HTTP、HTTPS、ftp等衆多協議,還支持POST、cook
原创 SSH免密通信
1、SSH簡介 Secure Shell(安全外殼協議,簡稱SSH)是一種加密的網絡傳輸協議,可在不安全的網絡中爲網絡服務提供安全的傳輸環境。SSH通過在網絡中創建安全隧道來實現SSH客戶端與服務器之間的連接。雖然任何網絡服務都可以通過S
原创 MacOS iterm2你不知道的好
1 屏幕分隔 command + D:水平分隔 command + shift + D:垂直分隔 2 快捷鍵喚醒 窗口縮放 command + 回車
原创 MacOS終端使用代理
今天安裝Homebrew時下載相關組件非常慢,並且Homebrew使用的鏡像國內網絡也難以訪問。有兩種方法可以解決: 用國內鏡像源替換homebrew的鏡像源 讓終端命令走代理 第一種方法網上有很多闡述。當然使用第二種方法就不用改bre
原创 PySpark_Streaming+DBUtils+MySQL
Design Patterns for using foreachRDD dstream.foreachRDD is a powerful primitive that allows data to be sent out to exte
原创 python單例模式的實現
單例模式看wikipedia的解釋: 單例模式,也叫單子模式,是一種常用的軟件設計模式。在應用這個模式時,單例對象的類必須保證只有一個實例存在。 許多時候整個系統只需要擁有一個的全局對象,這樣有利於我們協調系統整體的行爲。比如在某個服務器
原创 數據分析的過程
數據分析流程: 提出問題 整理數據 探索數據 得出結論 傳遞結果 1.提出問題 我作爲一個互聯網公司中的技術人員,目前接收到的大多需求和問題是來自研發內部。實際上在一家公司中,除了研發,還有產品、運營、客服甚至老闆,他們都需要數據支撐作
原创 Spark的部署腳本解讀
Apache Spark is a fast and general-purpose cluster computing system. 以下分析的是Spark2.3.0 版本。 Submitting Applications The
原创 統計數據類型
數據是指不同的信息片段。你可能認爲數據只是表格上的簡單數字,但是數據的形式多種多樣。從文本到視頻到電子表格,從數據庫到圖片再到音頻視頻,而且肯定還漏了很多其他的形式。 存在的數據類型有: 換個角度看 要分解我們的數據類型,主要有兩大
原创 快速搭建kafka
1 安裝準備 系統版本:CentOS 6.x-7.x zookeeper版本:3.4.6,zk安裝請參考快速搭建ZooKeeper kafka版本:0.11.0.3 下載鏈接:https://kafka.apache.org/downl
原创 如何用python做數據分析-NumPy篇
1.ndarray數據結構 2.創建ndarray 3.ndarray的數據類型 4.數組和標量之間的運算 5.基本的索引 6.通用函數 7.利用數組進行數據處理 8.輸入輸出 NumPy(Numerical Python的簡稱)是高性能