原创 新手小白第一次構建spark

寫在前面 Building Spark官網寫的明明白白。看別人博客不如官網來的權威,我這篇文章僅僅記錄本人編譯spark源碼的過程,不用於任何指導,有興趣就看,沒興趣就可以到此結束了。跟着官網步驟去操作吧。 工具: Idea2020.1

原创 用python做數據分析-NumPy篇

1.ndarray數據結構 2.創建ndarray 3.ndarray的數據類型 4.數組和標量之間的運算 5.基本的索引 6.通用函數 7.利用數組進行數據處理 8.輸入輸出 NumPy(Numerical Python的簡稱)是高性能

原创 Tableau 同比、環比

1. 環比 以示例-超市爲例: 在聚合字段上右鍵-添加表計算-百分比差異。 環比公式: (ZN(SUM([銷售額 (複製)])) - LOOKUP(ZN(SUM([銷售額 (複製)])), -1)) / ABS(LOOKUP(ZN(SUM

原创 python多任務並行

1、concurrent.futures concurrent.futures模塊提供了一個用於異步執行callables的高級接口。 這裏面有三個重要的類。 concurrent.futures.Executor 一個抽象類,提供異步

原创 curl命令

curl命令是一個利用URL規則在命令行下工作的文件傳輸工具。它支持文件的上傳和下載,所以是綜合傳輸工具,但按傳統,習慣稱curl爲下載工具。作爲一款強力工具,curl支持包括HTTP、HTTPS、ftp等衆多協議,還支持POST、cook

原创 SSH免密通信

1、SSH簡介 Secure Shell(安全外殼協議,簡稱SSH)是一種加密的網絡傳輸協議,可在不安全的網絡中爲網絡服務提供安全的傳輸環境。SSH通過在網絡中創建安全隧道來實現SSH客戶端與服務器之間的連接。雖然任何網絡服務都可以通過S

原创 MacOS iterm2你不知道的好

1 屏幕分隔 command + D:水平分隔 command + shift + D:垂直分隔 2 快捷鍵喚醒 窗口縮放 command + 回車

原创 MacOS終端使用代理

今天安裝Homebrew時下載相關組件非常慢,並且Homebrew使用的鏡像國內網絡也難以訪問。有兩種方法可以解決: 用國內鏡像源替換homebrew的鏡像源 讓終端命令走代理 第一種方法網上有很多闡述。當然使用第二種方法就不用改bre

原创 PySpark_Streaming+DBUtils+MySQL

Design Patterns for using foreachRDD dstream.foreachRDD is a powerful primitive that allows data to be sent out to exte

原创 python單例模式的實現

單例模式看wikipedia的解釋: 單例模式,也叫單子模式,是一種常用的軟件設計模式。在應用這個模式時,單例對象的類必須保證只有一個實例存在。 許多時候整個系統只需要擁有一個的全局對象,這樣有利於我們協調系統整體的行爲。比如在某個服務器

原创 數據分析的過程

數據分析流程: 提出問題 整理數據 探索數據 得出結論 傳遞結果 1.提出問題 我作爲一個互聯網公司中的技術人員,目前接收到的大多需求和問題是來自研發內部。實際上在一家公司中,除了研發,還有產品、運營、客服甚至老闆,他們都需要數據支撐作

原创 Spark的部署腳本解讀

Apache Spark is a fast and general-purpose cluster computing system. 以下分析的是Spark2.3.0 版本。 Submitting Applications The

原创 統計數據類型

數據是指不同的信息片段。你可能認爲數據只是表格上的簡單數字,但是數據的形式多種多樣。從文本到視頻到電子表格,從數據庫到圖片再到音頻視頻,而且肯定還漏了很多其他的形式。 存在的數據類型有: 換個角度看 要分解我們的數據類型,主要有兩大

原创 快速搭建kafka

1 安裝準備 系統版本:CentOS 6.x-7.x zookeeper版本:3.4.6,zk安裝請參考快速搭建ZooKeeper kafka版本:0.11.0.3 下載鏈接:https://kafka.apache.org/downl

原创 如何用python做數據分析-NumPy篇

1.ndarray數據結構 2.創建ndarray 3.ndarray的數據類型 4.數組和標量之間的運算 5.基本的索引 6.通用函數 7.利用數組進行數據處理 8.輸入輸出 NumPy(Numerical Python的簡稱)是高性能