原创 Linux 定時任務crond 實例-文件備份

需求:服務器定期備份日誌到指定目錄下 #日誌文件存放的目錄 log_src_dir=/home/hadoop/logs/log/ 在此目錄下生成多個模擬日誌,日誌名稱如access.log.20190316110829 1、定時上

原创 Python3爬取UN(聯合國數據) api調用

# -*- coding=UTF-8 -*- import time import requests import re import os from bs4 import BeautifulSoup from requests.

原创 Flume負責均衡和容錯(load-balance、failover)

負載均衡是用於解決一臺機器(一個進程)無法解決所有請求而產生的一種算法。 Load balancing Sink Processor能夠實現load balance功能,如下圖Agent1是一個路由節點,負責將Channel暫存的

原创 Azkaban安裝部署(附資源)

資源鏈接: 鏈接:https://pan.baidu.com/s/1OBrW7BgjoOkvuaWr5gIZpg 提取碼:v34e 1. solo-server模式部署 1.1. 節點規劃 1.2 解壓配置 將 azkaban-

原创 sqoop數據遷移 - 安裝介紹

一 簡介 sqoop是apache旗下一款“Hadoop和關係數據庫服務器之間傳送數據”的工具。 導入數據:MySQL,Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統; 導出數據:從Hadoop的

原创 Hive 的基本操作

1 數據庫操作 1.1 創建數據庫 create database if not exists myhive; use myhive; 說明:hive的表存放位置模式是由hive-site.xml當中的一個屬性指定的 <nam

原创 Hive 文件存儲格式與數據壓縮結合

1 壓縮比和查詢速度對比 1)TextFile (1)創建表,存儲數據格式爲TEXTFILE create table log_text ( track_time string, url string, session_id st

原创 分類算法-模型選擇與調優

一 交叉驗證目的 爲了讓被評估的模型更加準確可信 二 交叉驗證(cross validation) 交叉驗證:將拿到的訓練數據,分爲訓練和驗證集。以下圖爲例:將數據分成5份,其中一份作爲驗證集。然後經過5次(組)的測試,每次都更換

原创 分類算法 - K-近鄰算法(附案例及測試數據)

一 定義 如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。 1.1 距離公式 兩個樣本的距離可以通過如下公式計算,又叫歐式距離 二 電影類型分析 三 K-近鄰

原创 分類算法-樸素貝葉斯算法

一 樸素貝葉斯分類方法 二 概率基礎 2.1 概率(Probability)定義 概率定義爲一件事情發生的可能性 扔出一個硬幣,結果頭像朝上 某天是晴天 P(X) : 取值在[0, 1] 2.2 女神是否喜歡計算案例

原创 QT不能輸入中文解決(簡單操作)

一 安裝fcitx的Qt支持庫 終端輸入: sudo apt-get install fcitx-frontend-qt5 二 拷貝到QT目錄下 sudo cp /usr/lib/x86_64-linux-gnu/qt5/plu

原创 機器學習-特徵工程

1、什麼是特徵工程 1.1 特徵工程 是使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法上發揮更好的作用的過程。 意義:會直接影響機器學習的效果 數據集構成:特徵值+目標值 1.2 特徵工程包含內容 特徵抽取 特徵預處理

原创 python數據分析 - 各種圖

官方文檔: https://matplotlib.org/gallery/index.html https://plot.ly/python/ 1.繪製了折線圖(plt.plot) 2.設置了圖片的大小(plt.figure) 3

原创 機器學習-算法入門

一 機器學習算法類別 1.1 按照學習方式分類 監督學習(supervised learning)(預測) ①定義:輸入數據是由輸入特徵值和目標值所組成。函數的輸出可以是一個連續的值(稱爲迴歸),或是輸出是有限個離散值(稱作分類

原创 Python對字符串的操作(大全)

1.字符串截取: 1.1 從某個子字符串的位置截取: 如: #上海新國際博覽中心 乘車路線 全景地圖上海新國際博覽中心 #截取後 #上海新國際博覽中心 a='上海新國際博覽中心 乘車路線 全景地圖上海新國際博覽中心' a[:a