原创 Spark Extracting,transforming,selecting features

Spark(3) - Extracting, transforming, selecting features 官方文檔鏈接:https://spark.apache.org/docs/2.2.0/ml-features.html 概述 該

原创 博客即將同步至騰訊雲+社區

我的博客即將同步至騰訊雲+社區,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=1yi0nqc8eoys4

原创 Spark Job-Stage-Task實例理解

Spark Job-Stage-Task實例理解 基於一個word count的簡單例子理解Job、Stage、Task的關係,以及各自產生的方式和對並行、分區等的聯繫; 相關概念 Job:Job是由Action觸發的,因此一個Job包含

原创 Spark Pipeline官方文檔

ML Pipelines(譯文) 官方文檔鏈接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述 在這一部分,我們將要介紹ML Pipelines,它提供了基於DataFram

原创 200行PYTHON代碼實現貪吃蛇

200行Python代碼實現貪吃蛇 話不多說,最後會給出全部的代碼,也可以從這裏Fork,正文開始; 目前實現的功能列表: 貪吃蛇的控制,通過上下左右方向鍵; 觸碰到邊緣、牆壁、自身則遊戲結束; 接觸到食物則食物消失,同時根據食物類型身體

原创 140行Python代碼實現Flippy Bird

140行代碼實現Flippy Bird 話說這遊戲中文名叫什麼來着,死活想不起來了,算了話不多說,140行實現小遊戲系列第二章,依然是簡單小遊戲,與數獨遊戲相比,在遊戲界面顯示上更難一些,但是在邏輯方面更簡單一些,需要處理的無非是速度、加速

原创 python實現十大經典排序算法

Python實現十大經典排序算法 代碼最後面會給出完整版,或者可以從我的Githubfork,想看動圖的同學可以去這裏看看; 小結: 運行方式,將最後面的代碼copy出去,直接python sort.py運行即可; 代碼中的健壯性沒有太多

原创 150+行Python代碼實現帶界面的數獨遊戲

150行代碼實現圖形化數獨遊戲 Github地址,歡迎各位大佬們fork、star啥的,感謝; 今天閒着沒事幹,以前做過html+js版的數獨,這次做個python版本的,界面由pygame完成,數獨生成由遞歸算法實現,由shuffle保證

原创 如何更好的分享機器學習

一些關於分享的思考 通過之前寫的幾篇機器學習相關的blog,能看到偏簡單的形式更容易被大家接受,而一些比較有難度的項目,分享的效果就很一般,原因主要有以下幾個方面: 比較難的項目需要對項目背景、數據形式、競賽信息等有一定的瞭解,不然容易一

原创 由Kaggle競賽wiki文章流量預測引發的pandas內存優化過程分享

pandas內存優化分享 緣由 最近在做Kaggle上的wiki文章流量預測項目,這裏由於個人電腦配置問題,我一直都是用的Kaggle的kernel,但是我們知道kernel的內存限制是16G,如下: 在處理數據過程中發現會超出,雖然我們

原创 預告-分享Kaggle上的NFL比賽碼數預測

Hello,近期會分享最近的一個Kaggle上的比賽,NFL比賽的碼數預測,通過這個比賽還是學到很多,雖然最後分數不理想。。。。這篇分享的內容適用於絕大多於的關於團隊競技類比賽的場景下的預測問題,比如足球、籃球、王者榮耀等等,算是從一個比較

原创 開學了。。。

明天開始正式開始一學期的學習,計劃要現定,大致上: 1.正常上課。 2.週六週末學習馬拉松。 3.早上正常起來上課,中午休息,下午吃完飯沒事就407學習到晚上上課或者到11點或者10點半會宿舍。   .NET   Linux

原创 國慶泰國之旅

Thailand Gooooooooooooooooooo!

原创 Python奇技淫巧 - 持續更新中....

Python奇技淫巧 人生苦短,我用Python; 編程界這絕對不是一句空話,尤其是對於使用過多個語言進行工作的同學們來說,用Python的時間越長,越有一種我早幹嘛去了的想法,沒事,啥時候用Python都不晚,這篇分享主要集中在各種P

原创 機器學習基本流程整理 - 這一篇就夠啦

機器學習基本流程 流程圖鏈接 衆所周知,ML是一個流程性很強的工作(所以很多人後面會用PipeLine),數據採集、數據清洗、數據預處理、特徵工程、模型調優、模型融合、模型驗證、模型持久化; 而在這些基本的步驟內,又存在很多種方式,比如數據