原创 Hadoop之NLineInputFormat解析

Hadoop默認實現的InputFormat是FileInputFormat<K,V>,在FileInputFormat下有如下五個子類:CombineFileInputFormat<K,V>、TextInputFormat<K,V>、K

原创 Python:Invalid environment marker:python_version

依賴信息: 操作系統:CentOS 7 Python:2.7.12 當用pip 或者easy_install 命令安裝相關依賴的時候,報如下錯誤: Invalid environment marker:python_version<2.7

原创 Hadoop之Partition深度解析

原文地址: http://www.cnblogs.com/archimedes/p/hadoop-partitioner.html  舊版 API 的 Partitioner 解析 Partitioner 的作用是對 Map

原创 如何在hadoop中控制map的個數

    原文地址:http://blog.csdn.net/lylcore/article/details/9136555 hadooop提供了一個設置map個數的參數mapred.map.tasks,我們可以通過這個參數來控制m

原创 歸併算法的遞歸和非遞歸實現

package Sort; public class MergeSort { public static void main(String[] args) { int[] sourceData = new int[]{6,1,3,

原创 使用Myeclipse + SVN + TaoCode 免費實現項目版本控制的詳細教程

         通過Myeclipse + SVN插件 + TaoCOde可以省去代碼倉庫的租建;同時還可以很好的滿足小團隊之間敏捷開發的需求。接下來詳細介紹整個搭建流程。          首先,介紹所用到的工具:         

原创 Java實現排列組合算法

用Java實現排列算法: package Sort; import java.util.ArrayList; import java.util.List; public class Arrange { public static

原创 大數階乘

import java.util.ArrayList; import java.util.List; /** * 實現思路: * Step 1:int轉int[] * Step 2:int[] 相乘 * Step

原创 查看Python依賴包及其版本號信息的方法

今天小編就爲大家分享一篇查看Python依賴包及其版本號信息的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧 查看依賴包及對應的版本號信息的方法有兩種: 方法1:pip list 方法2:p

原创 MySQL實現排名、分組篩選、TopN問題

之前在學習SQL時刷過一遍LeetCode上的SQL題,不過只做一遍效果並不是很好,很快也忘記了具體的解題思路。在這裏將對其中的:Q176(第二高薪水) 、 Q177(第N高薪水) 、 Q178(分數排名) 、 Q184(部門工資

原创 Consumer Liveness檢測機制

我們都知道能夠觸發Rebalance的原因有很多,其中就包括Group中新增或者移除Consumer Client。除去客戶端主動斷開連接會通知Coordinator執行Client的移除操作外,Kafka本身提供了多種機制來檢測Co

原创 Kafka Timestamp

Timestamp來龍去脈 Message Body 出於對日誌保存、日誌切分和Kafka Streaming的改進和優化,Kafka從0.10.0.0版本起,在消息內新增加了個timestamp字段;時間戳的類型有兩種:可以設定爲

原创 MySQL存儲Json字符串

環境依賴 Python 2.7 MySQL 5.7 MySQL-python 1.2.5 Pandas 0.18.1 在日常的數據處理中,免不了需要將一些序列化的結果存入到MySQL中。這裏以插入JSON數據爲例,討論這種問題發生

原创 Kafka實踐之Consumer

本文設計的所有代碼詳見Github 上手Kafka Consumer是比較容易的,這裏以原生的Java API爲例,通常的實現邏輯如下所示: public void consumer() { String br

原创 Kafka實踐之常用命令

Topic 新建Topic bin/kafka-topics.sh --zookeeper <zookeeper connect> --create --topic <string> --replication-factor <int