原创 Win7下Python操作MySQL步驟

1、檢視Python版本   如果尚未安裝Python,那麼你可以到Python官網進行下載: For the MD5 checksums and OpenPGP signatures, look at the detailed

原创 Yarn資源分配性能調優

日誌: Container [pid=134663,containerID=container_1430287094897_0049_02_067966] is running beyond physical memory limits.

原创 Python抓取京東圖書評論數據

京東圖書評論有非常豐富的信息,這裏面就包含了購買日期、書名、作者、好評、中評、差評等等。以購買日期爲例,使用Python + Mysql的搭配進行實現,程序不大,才100行。相關的解釋我都在程序里加注了: from selenium i

原创 Spark中常用工具類Utils的簡明介紹

《深入理解Spark:核心思想與源碼分析》一書前言的內容請看鏈接《深入理解SPARK:核心思想與源碼分析》一書正式出版上市 《深入理解Spark:核心思想與源碼分析》一書第一章的內容請看鏈接《第1章 環境準備》 《深入理解Sp

原创 hadoop、hbase、hive、zookeeper版本對應關係

最新版本:hadoop、hbase、hive、zookeeper版本對應關係續 hadoop與HBase版本對應關係: Hbase  Hadoop  0.92.0   1.0.0 0.92.1   1.0.0 0.92.2   1.0.

原创 利用Python抓取和解析網頁(轉載)

這是我寫爬蟲的時候搜到的一篇比較不錯的文章 講的還是比較詳細 雖然代碼有部分縮進錯誤 稍微修改下就可以有很好的效果了 於是我就臉皮厚的貼了過來 收藏吧算是 對搜索引擎、文件索引、文檔轉換、數據檢索、站點備份或遷移等應用程序來說,經

原创 MySQL 高可用架構在業務層面細化分析研究

相對於傳統行業的相對服務時間9x9x6或者9x12x5,因爲互聯網電子商務以及互聯網遊戲的實時性,所以服務要求7*24小時,業務架構不管是應用還是數據庫,都需要容災互備,在mysql的體系中,最好通過在最開始階段的數據庫架構階段來實現容

原创 流式大數據處理的三種框架:Storm,Spark和Samza

許多分佈式計算系統都可以實時或接近實時地處理大數據流。本文將對三種Apache框架分別進行簡單介紹,然後嘗試快速、高度概述其異同。 Apache Storm 在Storm中,先要設計一個用於實時計算的圖狀結構,我們稱之爲拓撲(top

原创 Hadoop平臺架構--存儲篇

剛剛開始使用Hadoop集羣的時候,目錄沒有有個規範,大家都根據自己的喜好 創建各種不同的目錄,權限控制也沒有開啓,隨着應用越來越多,使用的人員也 多了起來,導致目錄混亂,終於在新規劃集羣的時候,對目錄做了規範和權限控制. 下面簡單介紹一

原创 Spark Streaming快速狀態流處理

許多複雜流處理流水線程序必須將狀態保持一段時間,例如,如果你想實時瞭解網站用戶行爲,你需要將網站上各“用戶會話(user session)”信息保存爲持久狀態並根據用戶的行爲對這一狀態進行持續更新。這種有狀態的流計算可以在Spark S

原创 精通 Oracle+Python,第 4 部分:事務和大型對象

作者:Przemyslaw Piotrowski   通過 Python 管理數據事務、處理大型對象 2010 年 3 月發佈 事務包含一組 SQL 語句,這組 SQL 語句構成數據庫中的一個邏輯操作,如轉帳或信用卡支付操作。將 SQL

原创 漫談ELK在大數據運維中的應用

圈子裏關於大數據、雲計算相關文章和討論是越來越多,愈演愈烈。行業內企業也爭前恐後,羣雄逐鹿。而在大數據時代的運維挑站問題也就日漸突出,任重而道遠了。本文旨在針對複雜的大數據運維繫統推薦一把利器,達到拋磚引玉的效果,如果文中出現任何紕漏和

原创 Spark MLlib 1.6 -- 特徵抽取和變換

·  TF-IDF ·  Word2Vec ·       Model ·       Example ·  StandardScaler ·       Model Fitting ·       Example ·  

原创 Hadoop平臺架構--硬件篇

還記得剛接觸Hadoop的時候,還是1.x版本,硬是在自己的4GB內存上面弄了3個虛擬機 學習,條件有些艱苦,Hadoop測試集羣搭建不需要太多考慮,隨着畢業開始進入企業,在企業中實踐Hadoop,特別是一定規模的集羣,逐漸涉及到硬件資源

原创 十分鐘搞定pandas

本文是對pandas官方網站上《10 Minutes to pandas》的一個簡單的翻譯,原文在這裏。這篇文章是對pandas的一個簡單的介紹,詳細的介紹請參考:Cookbook 。習慣上,我們會按下面格式引入所需要的包: 一、