原创 機器學習中的特徵工程的處理過程

本文是在別人的文章基礎上進行修改,添加。 (一) 特徵工程概述 1.特徵工程的含義 特徵工程具體含義:通過一系列的工程活動,將這些信息使用更高效的編碼方式(特徵)表示。使用特徵表示的信息,信息損失較少,原始數據中包含的規律依然保留

原创 腳本文件實現elasticsearch集羣定時刪除7天前索引數據

elasticsearch定時刪除7天前索引數據的步驟: 1.新建sh腳本文件 項目中elasticsearch集羣有兩臺服務器,分別爲126和127,選擇127服務器新建sh腳本文件。 es_index_delete.sh腳本

原创 python中\t,\n,\n\t三者之間的區別

python中經常看到使用\t,\n,\n\t,那麼它們有什麼區別之處呢? \t :表示空4個字符,類似於文檔中的縮進功能,相當於按一個Tab鍵。 \n :表示換行,相當於按一個 回車鍵 \n\t : 表示換行的同時空4個字符。

原创 logstash利用grok截取字符中指定長度的內容

最近項目用到logstash,要求利用grok截取日誌消息中某一指定長度的內容。 Logstatsh需要兩個必需參數input、output,以及一個可選參數filter。input用於輸入數據的設置,output用於輸出數據的設

原创 模型評價指標說明和scikit-learn代碼實現

目前常用的評價指標有:準確率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲線、PR曲線,AUC曲線。 1.混淆矩陣 True Positive(真正,TP):將正類預測爲正類數 True

原创 交叉驗證(cross validation)原理和方法說明以及scikit-learn代碼實現。

交叉驗證(cross validation) 1.定義: 用來驗證分類器的性能一種統計分析方法,基本思想是把在某種意義下將原始數據(data set)進行分組,一部分做爲訓練集(training set),另一部分做爲驗證集(va

原创 轉載——5 分鐘帶你弄懂非監督學習k-means 聚類(通俗易懂)

本文轉載,原文爲https://blog.csdn.net/huangfei711/article/details/78480078 聚類與分類的區別 分類:類別是已知的,通過對已知分類的數據進行訓練和學習,找到這些不同

原创 支持向量機SVM的原理和常用名稱解釋,以及利用sklearn-SVC實現簡單的支持向量機

支持向量機(SVM) 1. 簡介 支持向量機(Support Vector Machine, SVM)是一類按監督學習(supervised learning)方式對數據進行二元分類(binary classification)的

原创 java開發——時間類型和時間格式轉換

項目開發過程中,有時候需要將時間的形式進行變換,時間的輸入和輸出不一致的轉換,本文用於記錄常用到的方法。 首先對sdf.format(a),sdf.parse(a)兩個類型進行區分. sdf.format(a):將String類型

原创 pandas數據分析處理常用知識點整理

一.基本知識 有兩個主要的數據結構,Series和DataFrame,記住大小寫區分。 導入庫方法:import pandas as pd 1.Series類似於一維數組,和numpy的array接近,由一組數據和數據標籤組成。數據標

原创 數據分析處理Numpy庫方法整理

一.基本知識 NumPy的主要對象是同構多維數組。它是一個元素表(通常是數字),都是相同的類型,由正整數元組索引。在NumPy維度中稱爲軸。 導入庫方法:import numpy as np 對應的屬性有: .ndim:返回的是數組的

原创 解決報錯:Parser must be a string or character stream, not Series

一開始使用df[‘TIME’] = parser.parse(df[‘GPS_TIME’]),出現錯誤,錯誤提示爲: Parser must be a string or character stream, not Series df

原创 pandas中Series索引切片說明

Series是pandas中一個重要的數據結構,Series是一種類似於一維數組的對象,它由一組數據以及一組與之相關的數據標籤(即索引)組成。 Series索引可以使用索引值也可以使用位置數值兩種方法索引。 import numpy

原创 python中*args和**kargs的用法和區別

*一.args 1.直接賦值 python中在參數前面加一個 的參數 ,可以按照位置傳值,稱爲可變位置參數,如args *args:是一個列表,傳入的參數會被放進列表裏。 values = (1,2,3,4,5,6) a ,b , *

原创 利用Python對電商銷售數據進行分析

一.數據集介紹 此次的數據集來自kaggle的關於在線零售業務的交易數據,該公司主要銷售禮品,大部分出售對象是面向批發商。 二.數據集字段介紹 數據包含541910行,8個字段,字段內容爲: InvoiceNo: 訂單編號,每筆交易有