原创 flume消費kafka數據,以時間戳的形式創建文件,保存到hdfs

組件:flume-1.8、hadoop-2.6.0、kafka-2.10-0.10.2.1 目的:flume消費kafka數據,以時間戳的形式創建文件,保存到hdfs SINKS.HDFS配置說明: channel type hd

原创 elasticsearch.yml配置內容詳解

 關於es的現實生成環境可以相應修改配置內容。 cluster.name: elasticsearch node.name: bigdata01 network.host: 172.16.58.21 http.port: 9200 tr

原创 ES內存深度解析——gc問題

注: 本文主要針對ES 2.x。  “該給ES分配多少內存?”  “JVM參數如何優化?“ “爲何我的Heap佔用這麼高?” “爲何經常有某個field的數據量超出內存限制的異常?“ “爲何感覺上沒多少數據,也會經常Out Of Memo

原创 flume、kafka、avro組成的消息系統

利用apache flume和Apache kafka(依賴zookeeper)完成一個消息系統,具體消息傳遞:kafka-->flume A-->flume B-->kafka。將數據通過flume進程A從kafka集羣中讀取,通過av

原创 Java23種設計模式總結【轉載】

總體來說設計模式分爲三大類: 創建型模式,共五種:工廠方法模式、抽象工廠模式、單例模式、建造者模式、原型模式。 結構型模式,共七種:適配器模式、裝飾器模式、代理模式、外觀模式、橋接模式、組合模式、享元模式。 行爲型模式,共十一種:策略模式

原创 Python3 requests 12306查票模塊

記之前的學習,再過一陣子估計忘了。。。 查票不需要登錄,但是支付是需要登錄的,所以人爲操作的話,一般是選擇查票->預定->下單(下單時需要登錄,出現變態二維碼驗證)。而我們使用爬蟲可以先登錄,然後一直保持登錄狀態,流程:登錄->查票->下

原创 Java編程 思維導圖

最近又學習了一遍Java,用思維導圖記錄下學習內容。 學習的路還很漫長!!!! 思維導圖github:https://github.com/HeCCXX/java-mindmap

原创 window10 +python3 + scrapy安裝

依次執行下列: 1、安裝wheel pip install wheel   2、安裝lxml     下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml   pip insta

原创 【劍指Offer學習】【所有面試題彙總】

劍指Offer學習所有代碼下載【https://github.com/Wang-Jun-Chao/coding-interviews】目錄第01-10題【劍指Offer學習】【面試題02:實現Singleton 模式——七種實現方式】【劍

原创 GPA、成績、學校排名對錄取情況的邏輯迴歸簡單例子

admit、GPA、grade、rank分別代表錄取情況、績點、成績、學校排名,此次利用sklearn庫進行邏輯迴歸的簡單訓練。進行篩選主要特徵值,模型準確率。 import pandas as pda from sklearn.li

原创 編寫knn算法實現手寫體識別

  一、首先學習學習knn算法。 kNN算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決

原创 人工神經網絡(ANN)BP算法應用(手寫體數字識別部分代碼)

人工神經網絡在熱門的人工智能領域有着很多很好的應用。 在網上也有很多優秀的文章闡述人工神經網絡的原理和應用,可以參考以下優秀的文章。 https://blog.csdn.net/leiting_imecas/article/details

原创 python+jieba+tfidf算法 文本相似度

jieba是python第三方庫,用於自然語言處理,對文本進行分詞,當然也有其他的分詞庫。gensim庫,利用TFIDF算法來進行文本相似度計算,通過利用gensim庫的corpora,models,similarities處理後續。基本

原创 pymysql 中總結出來的一些問題

在這用到pymysql爲例,其他的可作爲參考。一、關於(1054, "Unknown column 'xxxxxxx' in 'field list'")如果你寫的是下面這樣的話,以後記住別這樣寫了:add_produto = """IN

原创 ubuntu16.04 +Java8+ hadoop2.x單機安裝

關於hadoop及相關模塊的安裝,自己下載模塊安裝的話較爲麻煩,有配置、版本對應的些許問題,使用cloudera集成好的平臺也不錯,但如果跑的任務多的話,機器配置要好一點,模糊的記得是最低需要8G內存?下面先記錄下單機模式的安裝。hado