原创 Titan學習筆記-API操作記錄

瞭解並學習一下Titan相關的JAVA API操作,以QQ、QQ羣關係作爲一個示例,記錄相關API的使用和操作。學習和了解的過程中,只用到了一小部分的API,後續有機會或有需求在做更新。 Titan官方的Document還是很好用,解釋和

原创 MongoDB學習筆記-安裝部署和簡易API操作

解壓安裝包 tar -xzvf mongodb-linux-x86_64-ubuntu1404-3.2.8.tgz 啓動MongoDB方法一: bin/mongod --dbpath=/home/hadoop/Software/mo

原创 ElasticSearch學習筆記-常用操作記錄

集羣相關配置查看相關信息curl -XGET 'http://192.168.0.1:9200/_cat/health?v'curl -XGET 'http://192.168.0.1:9200/_cat/nodes?v'curl -XG

原创 爬蟲學習筆記-Scrapy初識

Scrapy是Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架,任何人都可以根據

原创 爬蟲學習筆記-Scrapy散記

一、Selenium模擬瀏覽器爬取界面 def selenium_crawl_goubanjia_proxy_ip(): parent_dir = os.path.dirname(__file__) current_

原创 Storm學習筆記-集成Kafka

Kafka接收數據源生產的消息數據,通過訂閱的方式,使用Storm的Topology作爲消息的消費者。 相關版本: kafka_2.11-0.10.0.0 storm-1.0.1 啓動Kafka Broker kafka_2.11-0.

原创 Titan學習筆記-初識

Titan 是一個在服務器集羣搭建的分佈式的圖形數據庫,特別爲存儲和處理大規模圖形而優化。集羣很容易擴展以支持更大的數據集,Titan有一個很好的插件式性能,這個性能讓它搭建在一些成熟的數據庫技術上像 Apache Cassandra、

原创 Python學習筆記-Txt文件轉Excel文件

Txt文件轉Excel 2003文件(Excel 2003 一個工作表行數限制65536,列數限制256) # -*- coding:utf-8 -*- import os import sys import xlwt import

原创 SpringBoot學習筆記-集成其他組件框架記錄

最近利用空閒時間看了一下SpringBoot相關的知識,網上的資料文檔還是比較豐富,比較全面的,在此就不做文字記錄了。自己也動手寫了一些測試實例,集成了一些常用的組件框架,如Eureka、Ribbon、Feign、Hytrix、Zuul、

原创 ElasticSearch學習筆記-相關度得分記錄

最近想要修改調整一下ElasticSearch裏面Doc的Score,於是在ES官網查閱了一下,相關的介紹和說明還是非常詳細的,能做的修改調整也還是比較多的,需要根據具體的情形去選擇相應的方式做合適的調整修改,這裏做個簡單的記錄,以便後續

原创 爬蟲學習筆記-WebMagic初識

WebMagic是一款基於Java開源的簡單靈活的爬蟲框架,使用起來非常簡單,與Scrapy爬蟲框架很相似,WebMagic的原理與使用官方有詳細的說明,這裏就不再陳述,直接上實例。 這個WebMagic爬蟲實例是結合Spring框架實現

原创 ElasticSearch學習筆記-同義詞記錄

同義詞擴大了一個匹配文件的範圍。正如詞幹提取或者部分匹配,同義詞的字段不應該被單獨使用,而應該與一個針對主字段的查詢操作一起使用,這個主字段應該包含純淨格式的原始文本。 第一種實現方式: 同義詞可以取代現有的語彙單元或 通過使用同義詞語

原创 JStorm學習筆記-集羣環境安裝部署

安裝版本如下: jstorm-2.2.1 zookeeper-3.4.10 zeromq-4.1.5 先行啓動zookeeper的集羣服務 修改配置文件conf/storm.yaml內容 ########### These MUST

原创 學習筆記-日誌文件採集分析簡單實例

流程簡述:Nginx生成的訪問日誌文件通過Filebeat採集輸入到Kafka中,Kafka中數據流入Logstash,Logstash處理過濾數據,一個出口直接寫到ElasticSearch,提供Kibana進行日誌分析可視化處理,一個