原创 python kafka獲取對應時間範圍內的消息實例代碼
應用offsets_for_times前提是kafka版本0.11及以上版本 並且跟producer配置也有關係 使用KafkaConsumer.offsetsForTimes要確認集羣已開啓log.message.timestamp.t
原创 系列之hashmap
(1)HashMap的實現原理? 此題可以組成如下連環炮來問 你看過HashMap源碼嘛,知道原理嘛? 爲什麼用數組+鏈表? hash衝突你還知道哪些解決辦法? 我用LinkedList代替數組結構可以麼? 既然是可以的,爲什麼HashM
原创 es導hive
hive基本操作 hive; show databases; use xesoa; show tables; show create table api_relation_student_live; desc api_relation
原创 elasticsearch具體操作Sql記錄
select count(distinct(stu_id)) from xxx "aggs": { "count": { "cardinality": { "field": "stu_i
原创 elasticsearch聚合搜索
1 select count(*) as num from tableName groupby class_id having num > 50000 { "query": { "bool": { "must":
原创 linux/vim 操作tips
1 ctrl+z後臺掛起 ctrl+c殺掉進程 jobs後臺進程 jobs -l顯示後臺進程且有進程號 (1) CTRL+Z掛起進程並放入後臺 (2) jobs 顯示當前暫停的進程 (3) bg %N 使第N個任務在後臺運行(
原创 kafka確保數據不丟失
一、關於acks、retries、replication.factor、min.insync.replicas Producer在發佈消息到某個Partition時,先通過ZooKeeper找到該Partition的Leader,然後無
原创 Python多線程與多線程中join()的用法
Python多線程與多進程中join()方法的效果是相同的。 下面僅以多線程爲例: 首先需要明確幾個概念: 知識點一: 當一個進程啓動之後,會默認產生一個主線程,因爲線程是程序執行流的最小單元,當設置多線程時,主線程會創建多個子線程,在p
原创 python垃圾回收
Python內存管理機制 Python內存管理機制主要包括以下三個方面: 引用計數機制 垃圾回收機制 內存池機制 引用計數 舉個例子說明引用是什麼: a = 1 如上爲一個簡單的賦值語句,1就是對象,a就是引用,引
原创 python 類self詳解
class Box(object): def __init__(this, boxname, size, color): this.boxname = boxname this.size = si
原创 git
git clone ssh://10088/xesoa/data/data.git git checkout -b teacher-II origin/teacher-II git add . git commit -m "xxxx"
原创 如何爲Kafka集羣選擇合適的Topic/Partitions數量
這是許多kafka使用者經常會問到的一個問題。本文的目的是介紹與本問題相關的一些重要決策因素,並提供一些簡單的計算公式。 越多的分區可以提供更高的吞吐量 首先我們需要明白以下事實:在kafka中,單個patition是kafka並行操作的
原创 spark+kafka+idea+sbt+scala踩坑
集羣的spark還沒有用起來,自建一個單機spark,然後連接本機的kafka生產者消費消息。 idea+spark scala代碼 package ex import org.apache.spark.SparkConf imp
原创 JVM初探:內存分配、GC原理與垃圾收集器
http://www.importnew.com/23035.html
原创 mysql cache一致性問題
https://blog.csdn.net/ly262173911/article/details/75127339 http://www.cnblogs.com/duyinqiang/p/5696253.html 1 選藍色字體方案,不