原创 kettle9源碼編譯和調試

kettle源碼版本:tag爲pentaho-kettle-9.0.0.0-R 開發工具:IDEA 前提:把maven的資源庫settings.xml中新增kettle官網所提供的settings.xml,把下圖中代碼添加到本機setti

原创 Python之安裝部署

1、下載安裝、部署步驟忘了,上上週做的事情。用的版本是3.5.2 2、用的開發工具是sublime,記得需要配置一些東西才能用 點贊 收藏 分享 文章舉報 gongchengsh

原创 scrapy學習之一-基礎

1、scrapy是python語言編寫的爬蟲框架,支持擴展,幫開發者完成了基礎的搭建,開發者只需開發核心代碼。至於爬取速率、cookie、線程數、間隔時間只需要配置即可。一定程度上方便了開發者。好像不支持分佈式吧,也談不上分佈式,支持併發

原创 Cloudera Manager API調用實例(JAVA版)

1、下載github上的api項目,含pom依賴關係 https://github.com/cloudera/cm_api 2、下載的api項目只是純粹的api說明和工具類,沒有調用實例,以maven格式導入到eclipse項目中 3、增

原创 簡單shell腳本,與日誌重定向輸出

linux crontab定時任務: */5 * * * * flock -xn /tmp/kettle_job_sjgz_server.lock -c '/bin/bash /opt/pdi-ce-6.1.0.1-196/kettl

原创 解決tomcat日誌中cataline.out過大問題(切換用log4j)

1、準備jar包和文件 地址https://download.csdn.net/download/gongchengshiv/10691222 裏面包含:tomcat-juli.jar,tomcat-juli-adapters.jar,l

原创 log4j的DailyRollingFileAppender每天產生一個日誌文件,卻不支持MaxBackupIndex

實驗了好幾次,又查了資料,才發現log4j的DailyRollingFileAppender每天產生一個日誌文件,卻不支持MaxBackupIndex,不能設置保留近幾天的日誌。

原创 kettle jar包衝突

 kettle中之前要寫java腳本連接hbase,所以導入了很多依賴包。現在使用kettle中的hadoop文件轉移控件報錯,排查之後因爲jar包衝突,衝突的jar包爲hadoop-common-2.5.1.jar  

原创 把scrapyd設置爲系統後臺服務和啓動項

一、設置爲系統後臺服務 1、新建文件/etc/init.d/scrapyd,名稱爲scrapyd #!/bin/bash PORT=6800 HOME="/var/scrapyd" BIN="/usr/local/bin/scrapyd"

原创 讓linux程序後臺執行(後臺程序管理利器supervisior管理Flume進程)

場景:需要讓flume穩定的在linux後臺執行 以下是離線安裝supervisor的方法: 一、安裝supervisor所依賴的python包 1、安裝easy_install 下載地址:http://pypi.python.org/p

原创 基於scrapy的智聯職位爬取

一、創建項目 cmd命令行界面,進入要保存項目的路徑E:\python\project,執行創建scrapy項目命令:scrapy startproject zhaopin_zhilian 結果:會在E:\python\project目錄

原创 linux讓flume在後臺運行

1.使用nohup+命令+& nohup可以讓命令忽略hangup(hup)的影響,在後臺一直執行。 &是在xshell上也不輸出內容,保持在後臺執行

原创 認識kettle

工作中使用kettle作爲數據抽取、轉換、清洗、計算、導出工具。 1、kettle是pentaho公司的BI產品中的一個小小組件,叫數據集成data integration工具。公司竟然用kettle完成全部的數據工作:採集、清洗、計算、

原创 redis緩存數據庫操作

1、設置redis緩存key的有效時間

原创 被cloudera quickstart vm坑了一把

基於沒有服務器,只有個人4G內存筆記本一臺,想試一把hadoop環境,操作一下真實環境學習。 研究了cloudera官網提供了一個快速學習的環境安裝包:cloudera quickstartvm。 安裝虛擬機時沒有說明需要最小內存,虛擬機