台部落gongchengshiv

kettle源碼版本：tag爲pentaho-kettle-9.0.0.0-R 開發工具：IDEA 前提：把maven的資源庫settings.xml中新增kettle官網所提供的settings.xml，把下圖中代碼添加到本機setti

2020-03-31 09:10:06

1、下載安裝、部署步驟忘了，上上週做的事情。用的版本是3.5.2 2、用的開發工具是sublime，記得需要配置一些東西才能用點贊收藏分享文章舉報 gongchengsh

2020-02-20 15:46:21

1、scrapy是python語言編寫的爬蟲框架，支持擴展，幫開發者完成了基礎的搭建，開發者只需開發核心代碼。至於爬取速率、cookie、線程數、間隔時間只需要配置即可。一定程度上方便了開發者。好像不支持分佈式吧，也談不上分佈式，支持併發

2020-02-20 15:46:21

1、下載github上的api項目，含pom依賴關係 https://github.com/cloudera/cm_api 2、下載的api項目只是純粹的api說明和工具類，沒有調用實例，以maven格式導入到eclipse項目中 3、增

2019-03-31 13:34:05

linux crontab定時任務： */5 * * * * flock -xn /tmp/kettle_job_sjgz_server.lock -c '/bin/bash /opt/pdi-ce-6.1.0.1-196/kettl

2018-09-30 12:25:41

1、準備jar包和文件地址https://download.csdn.net/download/gongchengshiv/10691222 裏面包含：tomcat-juli.jar，tomcat-juli-adapters.jar，l

2018-09-30 12:25:41

實驗了好幾次，又查了資料，才發現log4j的DailyRollingFileAppender每天產生一個日誌文件，卻不支持MaxBackupIndex，不能設置保留近幾天的日誌。

2018-09-30 12:25:41

kettle中之前要寫java腳本連接hbase，所以導入了很多依賴包。現在使用kettle中的hadoop文件轉移控件報錯，排查之後因爲jar包衝突，衝突的jar包爲hadoop-common-2.5.1.jar

2018-09-30 12:25:41

一、設置爲系統後臺服務 1、新建文件/etc/init.d/scrapyd，名稱爲scrapyd #!/bin/bash PORT=6800 HOME="/var/scrapyd" BIN="/usr/local/bin/scrapyd"

2018-09-02 08:16:59

場景：需要讓flume穩定的在linux後臺執行以下是離線安裝supervisor的方法：一、安裝supervisor所依賴的python包 1、安裝easy_install 下載地址：http://pypi.python.org/p

2018-09-02 08:16:59

一、創建項目 cmd命令行界面，進入要保存項目的路徑E:\python\project，執行創建scrapy項目命令：scrapy startproject zhaopin_zhilian 結果：會在E:\python\project目錄

2018-09-02 08:16:59

1.使用nohup+命令+& nohup可以讓命令忽略hangup(hup)的影響，在後臺一直執行。 &是在xshell上也不輸出內容，保持在後臺執行

2018-09-02 08:16:59

工作中使用kettle作爲數據抽取、轉換、清洗、計算、導出工具。 1、kettle是pentaho公司的BI產品中的一個小小組件，叫數據集成data integration工具。公司竟然用kettle完成全部的數據工作：採集、清洗、計算、

2018-09-02 08:16:59

1、設置redis緩存key的有效時間

2018-09-02 08:16:58

基於沒有服務器，只有個人4G內存筆記本一臺，想試一把hadoop環境，操作一下真實環境學習。研究了cloudera官網提供了一個快速學習的環境安裝包：cloudera quickstartvm。安裝虛擬機時沒有說明需要最小內存，虛擬機

2018-09-02 08:16:58