原创 練習1:python爬蟲-爬取拉勾網職位

0. 前言 本文從拉勾網爬取深圳市數據分析的職位信息,並以CSV格式保存至電腦, 之後進行數據清洗, 生成詞雲,進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟件包 Python版本: Python3.6 requests: 下載網

原创 Spark學習筆記5——容錯機制

容錯 指的是一個系統在部分模塊出現故障時還能否持續的對外提供服務,一個高可用的系統應該具有很高的容錯性;對於一個大的集羣系統來說,機器故障、網絡異常等都是很常見的,Spark這樣的大型分佈式計算集羣提供了很多的容錯機制來提高整個系統的可用

原创 Spark學習筆記3——spark運行模式

Spark三種運行模式 1.standalone模式 與MapReduce1.0框架類似,Spark框架本身也自帶了完整的資源調度管理服務,可以獨立部署到一個集羣中,而不需要依賴其他系統來爲其提供資源管理調度服務。在架構的設計上,Spar

原创 Spark學習筆記2——RDD編程

1.RDD設計背景 在實際應用中,存在許多迭代式算法(比如機器學習、圖算法等)和交互式數據挖掘工具,這些應用場景的共同之處是,不同計算階段之間會重用中間結果,即一個階段的輸出結果會作爲下一個階段的輸入。但是,目前的MapReduce框架

原创 阿里移動推薦算法大賽——推薦算法

推薦系統 從框架的角度看,推薦系統基本可以分爲數據層、觸發層、融合過濾層和排序層。數據層包括數據生成和數據存儲,主要是利用各種數據處理工具對原始日誌進行清洗,處理成格式化的數據,落地到不同類型的存儲系統中,供下游的算法和模型使用。候選集

原创 阿里移動推薦算法大賽——特徵工程

原文出處:https://www.zhihu.com/question/29316149/answer/110159647 1 特徵工程是什麼?   有這麼一句話在業界廣泛流傳:數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限

原创 Python學習筆記——pandas入門

pandas簡介 pandas : Python數據分析模塊 pandas是爲了解決數據分析任務而創建的,納入了大量的庫和標準數據模型,提供了高效地操作大型數據集所需的工具。 pandas中的數據結構 : Series: 一維數組,類似於

原创 阿里移動推薦算法大賽——開篇介紹

大賽簡介 本次賽題爲《阿里移動推薦算法》,以阿里巴巴移動電商平臺的真實用戶-商品行爲數據爲基礎,同時提供移動時代特有的位置信息,而參賽隊伍則需要通過大數據和算法構面向建移動電子商務的商品推薦模型。希望參賽隊伍能夠挖掘數據背後豐富的內涵,爲

原创 Spark學習筆記4——spark運行機制

Spark架構及運行機制 Spark運行架構包括集羣資源管理器(Cluster Manager)、運行作業任務的工作節點(Worker Node)、每個應用的任務控制節點(Driver)和每個工作節點上負責具體任務的執行進程(Execut

原创 Python學習筆記——測試加載數據所需時間

程序的執行時間 測試天貓天池大賽——阿里移動推薦算法給出的D數據集包含2千多萬條樣本,文件大小約1G;P數據集包含60多萬條記錄,文件大小約10M。可以進一步測試數據全部加載所需時間,從而對數據量有個更直觀的感受(這裏採用python-p

原创 Spark學習筆記1——開篇介紹

1、Spark簡介 Spark是美國加州大學伯克利分校的AMP實驗室(主要創始人lester和Matei)開發的通用的大數據處理框架。 Spark應用程序可以使用R語言、Java、Scala和Python進行編寫,極少使用R語言編寫Sp

原创 Python學習筆記——pandas IO tools 之csv文件讀寫

讀取csv文件:pd.read_csv(),寫入csv文件:pd.to_csv()  pandas還可以讀取一下文件:  read_csv,  read_excel,  read_hdf,  read_sql,  read_json, 

原创 機器學習筆記——機器學習基礎

                                         第一章 機器學習基礎 機器學習用途廣泛:當人們點擊搜索引擎返回給人們的鏈接,搜索引擎能夠記錄這次點擊並通過機器學習優化下次搜索結果; 通過機器學習可以在後臺

原创 Python學習筆記——pandas處理數據

python數據分析工具pandas中DataFrame和Series作爲主要的數據結構.  本文主要是介紹如何對DataFrame數據進行操作並結合一個實例測試操作函數。 1)查看DataFrame數據及屬性 df_obj = Dat

原创 機器學習筆記——TensorFlow

TensorFlow 編程 學習目標: 學習 TensorFlow 編程模型的基礎知識,重點了解以下概念: 張量 指令 圖 會話 構建一個簡單的 TensorFlow 程序,使用該程序繪製一個默認圖並創建一個運行該圖的會話 概念概覽