原创 mysql數據庫中插入數據並進行自動迭代更新

問題 我們知道在數據庫中保證數據的唯一性是十分必要的,這也就是有主鍵的一個原因,但是數據肯定是需要更新的,當然我們可以按照日期或者其他維度進行數據的永不衝突的更新。但是還有一種情況下需要我們迭代的去更新數據, 比如下圖主鍵是I

原创 Pandas去掉數字千分位的逗號的三種方法

問題描述: 在日常的數據清洗過程中,我們頻繁去處理一些數字,比如說日誌,或者說自動生成的報表,這些地方總有着千分位的逗號,這對於數據的後續運算和入庫都有着不小的影響,這邊將採用三種方法教大家超便捷的處理千分位逗號的問題

原创 利用Python給mysql數據庫表格批量添加註釋

原理:利用sql的concat來組合表格的基本信息 先利用sql進行表格的信息查詢來製作執行語句(網上輪子): SELECT concat( 'alter table ', table

原创 Mac版hadoop,Spark,Hbase的僞分佈式的安裝(全網最全)

注意: 如果你利用Mac從事開發工作,請務必去了解下Homebrew,他會給你帶來很大的便利,下文會細說 但是新版的Homebrew有個大問題,他在幫你裝軟件時會安裝最新版,並且大部分軟件不支持版本選擇,所以要有取捨 Ha

原创 利用pandas調換列的順序並且刪除指定行/列

如果你做數據分析的工作,那麼相信我Pandas是你離不開的模塊,事實證明它也沒有讓我們失望,所以將重點記錄一些常用方法 調換列順序的l兩種方法 1、數據準備 import pandas as pd data = {'

原创 最全Ndarray,DataFrame,List之間的相互轉化方法總結

可以說這些方法在實際的工作中用的是相當的頻繁,我在網上並沒有搜索到全面式的總結,當然還有字典(dict)的轉化,我會在下一篇博客中總結出來 1、 數據準備 import pandas as pd import numpy

原创 利用pandas對列進行篩選&利用索引/多列值重新排序

實際工作中我們可能遇到,挑選出表格中每一列中的最大值最小值組成新的DataFrame,或者按照索引(日期)、某些列的值進行重新排序,由於內容不多,我就合併在一起寫下來給大家參考 對列值進行自定義規則篩選 1、數據準備

原创 數據分析常用方法彙總

寫在前面 實際的數據分析過程中,其實並不簡簡單單的使用一些數據技術,還有很多成熟的方法論值得我們去借鑑,當然這些都是企業長期發展過程中進行的總結。 之前的文章也說過,數據分析師並不是一個純粹的程序員,相信我當你只會編程的時候

原创 利用pandas處理缺失數據

工作中少不了各種缺失數據,對其進行處理的方式也可以是各有不同 概覽 dropna : 對缺失數據進行過濾 fillna :以特定的方式補充缺失數據 isnull :返回布爾對象 notnull: isnull的否定

原创 Python中pymysql和sqlalchemy在導入數據庫的各自應用場合

有關數據分析的文章,都會默認大家會使用pandas(基本方法的應用),所以涉及到pandas的東西不會贅述 來到Python3,我們知道很多人在將數據導入Mysql數據庫的時候採用的是pymysql,(mysqldb在3.x版