原创 Pandas(Serises)

導包 import pandas as pd import numpy as np from pandas import Series,DataFrame 一.Series 1.Series的創建 Series是一種類似與一維數組的對象,

原创 數據處理(三)高級部分數據聚合

高級數據聚合可以使用pd.merge()函數包聚合操作的計算結果添加到df的每一行 df=DataFrame({'color':['red','green','red','blue','green'],               'it

原创 Mysql5.7下的三種循環

方法一:while .....do.....end while create procedure pwhile() begin declare i int; set i = 0; while i <10 do insert into t

原创 利用Python輕鬆實現圖片相似度對比(一)

關於圖片相似度,主要簡單介紹以下幾種方法: 一:通過圖片像素來比較,比較簡單,對使用場景有要求 二:通過餘弦方法來比較圖片 原理: 把圖片表示一個向量,通過計算向量之間的餘弦值來表徵圖片的相似度,個人認爲利用餘弦定理來比較語義相似度要比圖

原创 利用Python輕鬆實現圖片相似度對比(二)

五:圖像指紋      對每一張圖片生成一個“指紋”,通過比較兩張圖片的指紋,來判斷他們的相似度,是否屬於同一張圖片。    主要通過比較漢明距離來比較圖片,值越小,越相似 1:均值哈希算法(Average hash algorithm)

原创 MySQL5.7 四種日誌文件

mysql 日誌包括:錯誤日誌,二進制日誌,通用查詢日誌,慢日誌等 一:通用查詢日誌: 記錄建立的客戶端連接和執行的語句 1)show variables like '%verision%'; 顯示數據庫版本號,存儲引擎等信息 mysq

原创 Pandas(DataFrame)

DataFrameDataFrame是一個【表格型】的數據結構,可以看做是【由Series組成的字典】(共用同一個索引)。DataFrame由按一定順序排列的多列數據組成。設計初衷是將Series的使用場景從一維拓展到多維。DataFra

原创 數據處理階段(一)

此代碼是在ubuntu虛擬機下的jupyter下進行操作的 #導包 import numpy as np import pandas as pdfrom pandas import Series,DataFrame1、刪除重複元素 使用d

原创 matplotlib(直方圖,條形圖,餅圖,散點圖)基礎知識

import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt from pandas random impo

原创 數據處理(二)數據聚合

數據聚合是數據處理階段的最後一步,通常要使每一個數組生成一個單一的數值。 數據分類處理: 分組:先把數據分爲幾組 用函數處理:爲不同組的數據應用不同的函數以轉換數據 合併:把不同組得到的結果合併起來 數據分類處理的核心: groupby(

原创 處理丟失的數據

 import numpy as np import pandas as pd from pandas import Series,DataFrame有兩種丟失數據: None np.nan(NaN) 1. None None是Pyth

原创 numpy

導入numpy庫 import  numpy as np numpy默認ndarray的所有元素的類型是相同的 如果傳進來的列表中包含不同的類型,則統一爲同一類型,優先級:str>float>int python 的list類型只能是一維

原创 Series && DataFrame

一:Series柱狀圖 flg,axes = plt.subplots(2,1) data =Series( np.random.rand(10),index = "abcdefghij") data.plot(kind = 'bar',

原创 centos7 下安裝MySQL

centos7 下安裝MySQL5.7 一:安裝 1:先安裝wget yum -y install wget 2:從網址獲取 wget   https://dev.mysql.com/get/mysql57-community-relea

原创 pandas層次化索引

import numpy as np import pandas as pd from pandas import Series,DateFrame dd=DataFrame(np.random.rand(4,2),columns=['d