原创 Kafka理論之Consumer Group & Coordinator

Consumer Group 提及Consumer Group,最先想到的就是Group與Consumer Client的關聯關係: 1,Consumer Group用group.id(String)作爲全局唯一標識符 2,每個Gr

原创 Linux磁盤空間釋放

概述 在近期的實際工作中,遇到過幾次因爲磁盤空間滿而導致服務不可用的情況,所以免不了要對系統進行清理。 在最開始的幾次清理過程中,通過刪除一些大日誌文件可以得到立竿見影的效果,所以就沒怎麼注意;但是在最近一次的清理過程中,發現根目錄的

原创 Kafka理論之Partition & Replication

Kafka基本架構 此圖來源於朱小廝博客 上圖爲Kafka的典型架構圖,對於消息的生產以及消費邏輯不在本文的討論範疇,主要就Broker的數據存儲做以淺顯的總結。首先解釋一下常見的相關專業術語: Broker:消息中間件處理節點;

原创 免費代理IP爬蟲 & IP有效性校驗

要實現一個爬蟲系統,那麼代理是一個繞不開的話題。如果經費充裕,當然優先考慮收費代理。因爲衆所周知,免費代理的穩定性和可用性都無法得到有效的保障。所以筆者在這裏分享一個免費代理IP的蒐集和校驗的Demo,並基於此可以有效的支撐分佈式爬取

原创 基於網易雲音樂的分佈式爬蟲實現

注:此爬蟲項目及其數據僅作學術學習使用 Prepare Python 版本 Python 3.6.5 依賴包 scrapy_redis redis mysql-python kafka-python hdfs 數據API接口

原创 Pandas.read_json()踩坑總結 & 源碼初探

準備工作 環境依賴:Python 2.7 樣例數據(json文件) 問題描述   通過Pandas.read_json(jsonFilePath)方法讀取json文件時,會出現數據內容發生奇怪的轉變;Eg:假設樣例數據的文件名爲d

原创 在Windows上配置MongoDB

1,配置mongo的環境變量 2,創建數據庫文件夾和日誌文件夾      如:D:\Tools\Office\MongoDB\data\db和D:\Tools\Office\MongoDB\data\log\log.log(本機Mongo

原创 基於Python初探Linux下的殭屍進程和孤兒進程(一)

樣例代碼如下所示: # -*- coding: utf-8 -*- import multiprocessing import os import time class MainProcess:

原创 基於Spring Boot實現Mybatis的多數據源切換和動態數據源加載

環境依賴:   Spring Boot:1.5.9   JDK:1.8.0   MySQL:5.7.17   Mybatis:3.3.0     本文主要就mybatis的多數據源切換和動態數據源加載的實現原理做分享;對於my

原创 TCP/IP基礎

OSI,TCP/IP,五層協議的體系結構,以及各層協議 OSI分層 (7層):物理層、數據鏈路層、網絡層、傳輸層、會話層、表示層、應用層。 TCP/IP分層(4層):網絡接口層、 網際層、運輸層、 應用層。 五層協議     (5層):物

原创 查看Python依賴包及其版本號信息

查看依賴包及對應的版本號信息的方法有兩種: 方法1:pip list 方法2:pip freeze 這兩個同時適用於Windows和Linux系統 當pip版本過低時,會出現list命令不存在,且freeze命令報錯的情況。Eg:

原创 MapReduce工作原理圖文詳解

1.MapReduce作業運行流程 流程示意圖: 流程分析: 1.在客戶端啓動一個作業。 2.向JobTracker請求一個Job ID。 3.將運行作業所需要的資源文件複製到HDFS上,包括MapReduce程序

原创 基於Python初探Linux下的殭屍進程和孤兒進程(二)

multiprocessing.Process的join()方法   通過上篇博文可以看出join()方法具有清除殭屍進程的作用,與此同時帶來的負面作用就是子父進程的串行執行(此處假設我們的目標是保證子父進程的執行方式是非阻塞的;對於實際

原创 基於Python操作ElasticSearch

環境依賴:   Python:2.7   ES依賴包:pyelasticsearch   ElasticSearch:5.5.1 / 6.0.1   操作系統:Windows 10 / CentOS 7  本文主要就ES基本的CRU

原创 Hadoop的容錯性

要談及Hadoop的容錯性,就不得不先從Hadoop的組成說起。Hadoop的1版本可以理解爲是由MapReduce離線處理框架和HDFS文件系統組成。而Hadoop的2版本在1的基礎上,增加了YARN資源管理系統。因爲我自己接觸2的時間