原创 不編寫一行代碼實現 Hive 自定義 UDF 函數 解析 UA

1、什麼是UA?       用戶訪問服務器時,所攜帶的一些基本信息。      日誌字段如下: Mozilla/5.0 (iPhone; CPU iPhone OS 13_3 like Mac OS X) AppleWebKit/60

原创 對服務器性能查看

1、 TOP 命令 後按 1 可以看到9.4 wa 說明IO在阻塞。 2、查看IO: $> iostat  -d -m -t 5 每5S更新一次: read/s 94MB是非常高的了IO了佔用。

原创 postgresql 建表語句

  Create Table CREATE TABLE sipcde.t_sip_code_ip_addr( ID serial, sip_ip inet primary key, country_name varchar(32)

原创 PG sql 通過sql 編寫sql插入語句

我用的PG數據庫. SELECT 'insert into t_sis_black_is (is,sox) values ('|| ''''|| host(ip) || ''''||','||'''' || box || ''''||'

原创 一條Linux命令殺死你的腳本進程

ps aux |grep *.py | grep -v grep| awk '{print $2}' | xargs -i kill -9 {}

原创 GPG 對文件加密

          看了很多博客,特別是關於python API 操作 GPG 的,真垃圾,掉坑裏了。   最近項目在傳輸文件,需要進行加密、解密操作。     用我的代碼就行 # coding=utf-8 """ Note! pip

原创 postgresql 實現插入 更新操作

INSERT INTO "sip_data"."sip_ip_2m_data" (time_first,time_last,ip,ip_port,port)                 VALUES('2019/4/6 15:14:

原创 日常需求的總結

1、truncate 表,索引記憶也刪除 truncate "model_name"."tname" RESTART IDENTITY;  

原创 Postgresql timestamptz 轉化爲正常日期格式(Varchar類型)

通過 python 調用 我的Sql, 時間格式爲 timestamptz 導出數據以後是:  datetime.datetime(2018, 11, 18, 13, 56, 49, tzinfo=psycopg2.tz.FixedOf

原创 Hbase 常用功能工具類封裝

# -*- coding: utf-8 -*- import happybase import datetime import sys sys.path.append('../') from conf.config import hb

原创 linux 安裝指定目錄 配置參數

PREFIX=/home/hadoop/anaconda2

原创 hive sql 如何解決數據傾斜

場景:       我有接近7億條網站訪問瀏覽數據要做一次 按 host(域名) 分區,訪問時間進行排序(取最先訪問) 說白了就是row_number over(partition by  host order by ftime)。 突然

原创 sklearn 劃分數據集

#-*- coding: UTF-8 -*- from sklearn.model_selection import train_test_split def split(dataset, labelset, test_size

原创 數據倉庫(一)

本章討論了體系結構問題,數據倉庫適合於採用這種體系結構。這種體系結構的演化貫 穿於信息處理不同階段的整個歷史。在這種體系結構中有四個數據及處理層次—操作層, 數據倉庫層,部門層和個體層。

原创 百度翻譯API接口調用

#encodeing= utf-8 from datetime import datetime import httplib import md5 import urllib import random import json impor