原创 python kafka獲取對應時間範圍內的消息實例代碼

應用offsets_for_times前提是kafka版本0.11及以上版本 並且跟producer配置也有關係 使用KafkaConsumer.offsetsForTimes要確認集羣已開啓log.message.timestamp.t

原创 系列之hashmap

(1)HashMap的實現原理? 此題可以組成如下連環炮來問 你看過HashMap源碼嘛,知道原理嘛? 爲什麼用數組+鏈表? hash衝突你還知道哪些解決辦法? 我用LinkedList代替數組結構可以麼? 既然是可以的,爲什麼HashM

原创 es導hive

hive基本操作 hive; show databases; use xesoa; show tables; show create table api_relation_student_live; desc api_relation

原创 elasticsearch具體操作Sql記錄

select count(distinct(stu_id)) from xxx "aggs": { "count": { "cardinality": { "field": "stu_i

原创 elasticsearch聚合搜索

1 select count(*) as num from tableName groupby class_id having num > 50000 { "query": { "bool": { "must":

原创 linux/vim 操作tips

1 ctrl+z後臺掛起 ctrl+c殺掉進程 jobs後臺進程 jobs -l顯示後臺進程且有進程號   (1) CTRL+Z掛起進程並放入後臺   (2) jobs 顯示當前暫停的進程   (3) bg %N 使第N個任務在後臺運行(

原创 kafka確保數據不丟失

一、關於acks、retries、replication.factor、min.insync.replicas Producer在發佈消息到某個Partition時,先通過ZooKeeper找到該Partition的Leader,然後無

原创 Python多線程與多線程中join()的用法

Python多線程與多進程中join()方法的效果是相同的。 下面僅以多線程爲例: 首先需要明確幾個概念: 知識點一: 當一個進程啓動之後,會默認產生一個主線程,因爲線程是程序執行流的最小單元,當設置多線程時,主線程會創建多個子線程,在p

原创 python垃圾回收

Python內存管理機制 Python內存管理機制主要包括以下三個方面:     引用計數機制     垃圾回收機制     內存池機制 引用計數 舉個例子說明引用是什麼: a = 1 如上爲一個簡單的賦值語句,1就是對象,a就是引用,引

原创 python 類self詳解

class Box(object): def __init__(this, boxname, size, color): this.boxname = boxname this.size = si

原创 git

git clone   ssh://10088/xesoa/data/data.git git checkout -b teacher-II origin/teacher-II git add . git commit -m "xxxx"

原创 如何爲Kafka集羣選擇合適的Topic/Partitions數量

這是許多kafka使用者經常會問到的一個問題。本文的目的是介紹與本問題相關的一些重要決策因素,並提供一些簡單的計算公式。 越多的分區可以提供更高的吞吐量 首先我們需要明白以下事實:在kafka中,單個patition是kafka並行操作的

原创 spark+kafka+idea+sbt+scala踩坑

集羣的spark還沒有用起來,自建一個單機spark,然後連接本機的kafka生產者消費消息。 idea+spark   scala代碼 package ex import org.apache.spark.SparkConf imp

原创 JVM初探:內存分配、GC原理與垃圾收集器

http://www.importnew.com/23035.html

原创 mysql cache一致性問題

https://blog.csdn.net/ly262173911/article/details/75127339 http://www.cnblogs.com/duyinqiang/p/5696253.html 1 選藍色字體方案,不