原创 降維:主成分分析(PCA)

定義:可以將特徵向量投影到低維空間,實現對特徵向量的降維 步驟: 1.數據預處理。這裏預處理包含倆個部分:均值歸一化和屬性範圍調整。均值歸一化是相應屬性減去平均值;而屬性範圍則在歸一化基礎上除以屬性方差。 2.計算特徵之間的協方差矩陣。該

原创 oozie action參數傳遞

1.shell節點參數傳遞   第一步:在shell節點編輯器中將想要傳遞的變量輸出: # !/bin/bash test='test123' echo "test:$test"   第二步:節點高級屬性中勾選捕獲輸出:   第三步:其

原创 apache griffine本地安裝部署

1.下載到本地github地址:https://github.com/apache/griffin 2.解壓導入到idea,安心等待下載依賴jar包 3.修改service模塊下的三個配置文件,見圖片  4.編譯等待 5.右鍵運行 6

原创 通過oozieClient獲取指定jobid工作流的狀態信息以及節點的狀態信息

1.pom文件添加依賴 <dependency>             <groupId>org.apache.oozie</groupId>             <artifactId>oozie-client</artifact

原创 hive基本概念

1.hive是一個基於hadoop之上的一個數據倉庫。可以處理的數據是關係型數據 庫(結構性)、本地數據、hdfs數據(非結構化的數據); 2.hive是對處理數據的mapreduce的封裝平臺 3.hive會提供一些簡單的類sql語句來

原创 表格展示+多餘數據省略+鼠標懸浮顯示

本人非專業前端,寫的不好還望多多指教 1.首先需要將需要這樣處理的td,th設置一下樣式     text-align: center; /*設置水平居中*/     vertical-align: middle; /*設置垂直居中*/

原创 OneHotEncoder介紹單屬性多屬性scala實現

       因爲項目的需要,將數據庫中表的屬性向量化,然後進行機器學習,所以去spark官網學習了一下OneHotEncoder,官網的相關介紹比較少,主要是針對單屬性的處理,但是項目的要求是多屬性的處理,網上找了很多的資料,研究了大半

原创 Linux下訪問不了Tomcat下的項目

今天訪問服務器上的tomcat下的項目訪問不了,自己找了點資料,發現是端口被佔用了,下面主要來看看解決的步驟: 1.netstat -anp|grep 8080 查看8080端口是否被佔用 從圖中可以看出8080端口被java的3102

原创 Scala文件I/O

1.scala往文件裏面寫,如果沒有該文件,會新建這個文件。 package com.iflytek.file import java.io._ object FileWrite {   def main(args: Array[Stri

原创 shell定時執行

1.安裝crontab yum install vixie-cron yum install crontabs 2.啓動crontab服務 service crond start 啓動服務 service crond stop 關閉服務

原创 文本型數據的向量化:TF-IDF

1.對於文本型數據的分類處理(或者其他的處理),根據ik和jcseg等分詞器先對它們進行分詞處理之後,大家都知道,計算機是處理不了漢字的,對於文本型的詞我們如何才能讓計算機處理呢?我們可以通過TF-IDF將文本型的數據向量化。對於TF-I

原创 分類算法:bayes

給大家推薦一篇通俗易懂的博客,很適合一些數學功底像我一樣不紮實的同學學習,我當時第一次看有點懵過段時間回過頭看,瞬間收穫多多,明白了很多,強烈推薦: http://www.cnblogs.com/leoo2sk/archive/2010/

原创 非maven項目將第三方依賴打入jar

之前非maven項目都是將第三方依賴拖入到打好的jar,依賴少還好,多的話太麻煩,下面的一篇博客寫的很好,可以看看: http://blog.csdn.net/memray/article/details/17969443 如果ecli

原创 KAFKA的安裝配置

一、kafka單機部署 1. 上傳kafka_1.20-0.10.1.0.tgz到linux 2. 解壓 tar -xzvf kafka_1.20-0.10.1.0.gz -C /home/hadoop/work/   3

原创 scala的maven項目讀取配置文件

scala的maven項目讀取src/main/resources目錄下的資源文件該如何讀取呢? 下面提供一種默認的和一種自定義的: 對於application.conf配置文件,是默認的配置文件: application.conf內容