原创 jupyter平臺中用戶如何自定義magic

Magic Command簡介 Jupyter magic 命令形似%abc(line magic), %%abc(cell magic)我們常用的畫圖命令%matplotlib就是一種magic命令。 magic命令是對jupy

原创 Virtualenv 的安裝與配置

前言 pip上擁有豐富的第三方包,這是使用Python做開發的一個優勢,但是在一個 Python 環境下開發時間越久、安裝依賴越多,就越容易出現依賴包衝突的問題(使用pyspark做開發時,pandas和numpy包版本衝突給我本

原创 python類中的隱藏方法

在python中有些方法名比較特別,在名稱的前後各有兩個下劃線,這樣的方法往往具有特殊的意義,一般情況下我們不會直接用到所以稱之爲“隱藏方法”也有一些人稱之爲“魔法方法”。下面劃分這些隱藏方法,分類解析。 模塊屬性 1、__nam

原创 Spark DataFrame中使用window 函數報oom錯誤

故障發生背景和錯誤日誌 分享一次DataFrame故障復現和解決 現有如下任務:多個小表與大表join後新產生的表有很多空值,使用window函數對空值進行分組填充。 任務中途中斷,拋出oom錯誤。 截取拋出來的主要的錯誤日誌,日

原创 Python高級運用之裝飾器

本文主要分爲三個部分,分別介紹了函數裝飾器、內置裝飾器、類裝飾器,充分展示“補丁式”編程方法的便利。 什麼是裝飾器 裝飾器,顧名思義指的是通過添加一些額外的功能,起到能豐富原有對象的作用。如果我們已經構造好對象也實現了一些功能,如

原创 Spark On Yarn的兩種模式解析

使用yarn能對spark的運行資源調動進行動態劃分,spark on yarn有yarn-client和yarn-cluster兩種模式。這兩種模式的作業雖然都運行在yarn上,但是運行方式不一樣;下面解析一下這兩種模式下提交作

原创 Spark Streaming任務中的容錯機制盤點

前言 互聯網場景下,經常會有各種實時的數據處理,這種處理方式也就是流式計算,延遲通常也在毫秒級或者秒級,比較有代表性的幾個開源框架,分別是Storm,Spark Streaming和Filnk。 剛好最近我負責一個實時流計算的項目

原创 2019年年終總結

收穫 1年堅持在博客上整理、記錄稍有質量的知識,雖然是月更但是好歹堅持下來了。 從python入門到接觸大數據,最近開始深度學習入門。所幸找到了職業發展的路徑,接下來找準自己的位置深度鑽研。 遺憾 工作第2年工作內容增加了,要學的

原创 MLflow機器學習工作流管理使用教程

MLflow簡介 機器學習不是一個單向的pipeline,而是一個迭代的循環。其中包括四大部分:數據預處理、模型訓練、模型部署、數據更新。 行業痛點: 數據預處理和模型訓練都涉及到參數調整,不同參數對應的代碼、不同參數對應的效果

原创 python編程規範

說明 代碼的交互作用不能僅限於人與機器,更應該擴展到人與人,所以纔有代碼規範這一需求;一段好的代碼不僅需要結構簡單、功能塊分工明確,而且別人能容易讀懂。 使用Pycharm等 IDE可以設置自己喜歡的代碼風格,這種規範好的代碼風格

原创 Spark內存分配和管理模式

本文分爲2個部分:第一部分介紹了Spark的內存分配和管理模式,第二部分是第一部分的運用,介紹了Spark UI中顯示的Storage Memory含義。 內存管理原理 在執行Spark任務時,集羣會啓動Driver和Executor

原创 Python面向對象中的old-style and new-style classes

old-style and new-style 區分問題的引出 Python剛入門者或者因爲業務接觸Python的同學們,大多從Python3入手(現在很多的規範都是基於3展開)。但是由於歷史原因,很多老舊業務的服務還是基於Pytho

原创 pyspark dataframe之udf

PySpark UDF概念引出 在pandas中自定義函數,通過遍歷行的方式,便捷實現工程師的需求。但是對於數據量較大的數據處理,會出現速度過慢甚至超內存的問題。Spark作爲替代pandas處理海量數據的工具,參照 pandas u

原创 Spark DataFrame 與Pandas DataFrame差異

爲何使用pyspark dataframe 使用pandas進行數據處理,dataframe常作爲主力軍出現。基於單機操作的pandas dataframe是一種表格形數據結構,擁有豐富、靈活、操作簡單的api,在數據量不大的情況下有

原创 網易2017年暑期實習編程題之趕去公司

趕去公司 題目描述: 終於到週末啦!小易走在市區的街道上準備找朋友聚會,突然服務器發來警報,小易需要立即回公司修復這個緊急bug。假設市區是一個無限大的區域,每條街道假設座標是(X,Y),小易當前在(0,0)街道,辦公室在(gx,gy)街