台部落逸辰杳

Consumer Group 提及Consumer Group，最先想到的就是Group與Consumer Client的關聯關係： 1，Consumer Group用group.id(String)作爲全局唯一標識符 2，每個Gr

2018-12-27 13:23:59

概述在近期的實際工作中，遇到過幾次因爲磁盤空間滿而導致服務不可用的情況，所以免不了要對系統進行清理。在最開始的幾次清理過程中，通過刪除一些大日誌文件可以得到立竿見影的效果，所以就沒怎麼注意；但是在最近一次的清理過程中，發現根目錄的

2018-12-24 13:19:34

Kafka基本架構此圖來源於朱小廝博客上圖爲Kafka的典型架構圖，對於消息的生產以及消費邏輯不在本文的討論範疇，主要就Broker的數據存儲做以淺顯的總結。首先解釋一下常見的相關專業術語： Broker：消息中間件處理節點；

2018-12-17 02:10:20

要實現一個爬蟲系統，那麼代理是一個繞不開的話題。如果經費充裕，當然優先考慮收費代理。因爲衆所周知，免費代理的穩定性和可用性都無法得到有效的保障。所以筆者在這裏分享一個免費代理IP的蒐集和校驗的Demo，並基於此可以有效的支撐分佈式爬取

2018-11-03 22:05:56

注：此爬蟲項目及其數據僅作學術學習使用 Prepare Python 版本 Python 3.6.5 依賴包 scrapy_redis redis mysql-python kafka-python hdfs 數據API接口

2018-11-03 22:05:33

準備工作環境依賴：Python 2.7 樣例數據(json文件) 問題描述　　通過Pandas.read_json(jsonFilePath)方法讀取json文件時，會出現數據內容發生奇怪的轉變；Eg：假設樣例數據的文件名爲d

2018-09-17 10:53:08

1，配置mongo的環境變量 2，創建數據庫文件夾和日誌文件夾如：D:\Tools\Office\MongoDB\data\db和D:\Tools\Office\MongoDB\data\log\log.log（本機Mongo

2018-09-03 08:22:30

樣例代碼如下所示： # -*- coding: utf-8 -*- import multiprocessing import os import time class MainProcess:

2018-09-03 08:22:29

環境依賴：　　Spring Boot：1.5.9 　　JDK：1.8.0 　　MySQL：5.7.17 　　Mybatis：3.3.0 　　　本文主要就mybatis的多數據源切換和動態數據源加載的實現原理做分享；對於my

2018-09-03 08:22:28

OSI，TCP/IP，五層協議的體系結構，以及各層協議 OSI分層（7層）：物理層、數據鏈路層、網絡層、傳輸層、會話層、表示層、應用層。 TCP/IP分層（4層）：網絡接口層、網際層、運輸層、應用層。五層協議（5層）：物

2018-09-03 08:22:28

查看依賴包及對應的版本號信息的方法有兩種：方法1：pip list 方法2：pip freeze 這兩個同時適用於Windows和Linux系統當pip版本過低時，會出現list命令不存在，且freeze命令報錯的情況。Eg：

2018-09-03 08:22:28

1.MapReduce作業運行流程流程示意圖：流程分析： 1.在客戶端啓動一個作業。 2.向JobTracker請求一個Job ID。 3.將運行作業所需要的資源文件複製到HDFS上，包括MapReduce程序

2018-09-03 08:22:28

multiprocessing.Process的join()方法　　通過上篇博文可以看出join()方法具有清除殭屍進程的作用，與此同時帶來的負面作用就是子父進程的串行執行(此處假設我們的目標是保證子父進程的執行方式是非阻塞的；對於實際

2018-09-03 08:22:27

環境依賴：　　Python：2.7 　　ES依賴包：pyelasticsearch 　　ElasticSearch：5.5.1 / 6.0.1 　　操作系統：Windows 10 / CentOS 7 　本文主要就ES基本的CRU

2018-09-03 08:22:27

要談及Hadoop的容錯性，就不得不先從Hadoop的組成說起。Hadoop的1版本可以理解爲是由MapReduce離線處理框架和HDFS文件系統組成。而Hadoop的2版本在1的基礎上，增加了YARN資源管理系統。因爲我自己接觸2的時間

2018-09-03 08:22:27