原创 Spark學習筆記(二):RDD編程基礎

系列博客是學習廈門大學林子雨老師spark編程基礎課程的筆記,方便回顧 系列博客: Spark學習筆記(一):Spark概述與運行原理 RDD編程位置 RDD創建 (1)從文件中加載數據創建 調用SparkContext的tex

原创 如何加載訓練完畢後的模型文件繼續訓練模型

訓練完成後得到了模型文件,下一次想接着上次的基礎繼續進行訓練,這可怎麼辦? 小周來支招,打一頓就好了 基於keras框架得到的h5文件 第一次訓練模型得到的h5文件: model = Sequential() model.add

原创 做完線性迴歸後應該知道的知識

線性迴歸聽着很簡單,很早也就學過,以前就只會擬合模型,擬合出來看看R方就完事了,到最近一次作業纔有一些真正的理解,正好看到一篇不錯的文章,轉載過來。 理解什麼是線性迴歸 線性迴歸也被稱爲最小二乘法迴歸(Linear Regression,

原创 Python3正則匹配

正則匹配通俗地來說就是按照模板從給定的字符串裏找出想要的內容(按圖索驥,看圖找蛤蟆),這個模板即爲正則表達式。 python的正則表達式功能需要調用re模塊,re模塊中提供了不少有用的函數,比如:compile函數、match函數、se

原创 pandas學習(三):數據拼接、數據合併和數據聚合

此筆記是學習以下兩篇文章以及其他用到過的個人總結 pandas系列學習(五):數據連接 pandas系列學習(六):數據聚合 如題,主要分爲數據拼接、數據合併和數據聚合三部分。數據的拼接是指機械地把數據堆到一起,數據的合併是指根據兩個

原创 keras中如何將不同的模型聯合起來(以cnn/lstm爲例)

可能會遇到多種模型需要揉在一起,如cnn和lstm,而我一般在keras框架下開局就是一句 model = Sequential() 然後model.add ,model.add , ......到最後 model.compile(

原创 python中常見小問題鏈接彙總

python_general Python的UnboundLocalError: local variable 'xxx' referenced before assignment 解決python3 UnicodeEncodeError

原创 Spark操作實例

   創建spark對象 spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate() 讀取文件 1.直接讀取爲dataframe格式 data=

原创 python3讀寫txt文件操作

除了pandas用read_table讀取txt,python還有普通的利用with open讀寫操作。 with open("test.txt","r",encoding='utf-8') as f: ftext = f

原创 pandas之多行按類合併爲一行

前言 前面講到explode操作是把某一列中的嵌套列表拆分爲多行 那有時候我們會有着相反的需求,即按照某一列,把相同值對應的多行合併成一行 原理 主要用到groupby函數+apply函數 讀取數據 data=pd.rea

原创 如何繪製頻率直方圖+累計概率曲線

前言 matplotlib畫直方圖是通過hist函數來畫的,但是有時候或許我們想畫一個直方圖加上累計概率曲線,既然沒有現成的,就只能咱們自己造了 計算累計曲線 ax1 = fig.add_subplot(111) a1,a2,

原创 快速上手python操作postgresql

前言 總結下前期利用python操作postgresql數據庫的筆記,方便以後使用,順便安利markdown真舒服 文章目錄前言python上傳dataframe數據入數據庫pd.to_sql上傳copy_from上傳pyth

原创 如何獲得行政區劃的地理文件

做一些空間特徵時,經常需要把屬性值映射到行政區劃上集計,看一看各行政區劃的分佈屬性特徵。那麼如何快速獲取這些地理文件呢 method 1 這個是我在這篇推送裏看到的,親測很多次,炒雞有用。這個網站可以免費下載全國任一地區行政區

原创 pandas之explode、resample

今天記一下處理數據中發現的pandas的好功能 1、explode ->拆分數據爲多行 我們遇到的車輛軌跡數據是這樣的,第一列是車輛的id,第二列是該車輛的軌跡信息,包括時間,經度,緯度 我們現在想做的是將最後一列按照第一列car_id

原创 基於conv-lstm方法預測共享單車需求

基於conv-lstm方法預測共享單車需求 本期分享下我們小組的數據挖掘期末(划水)大作業,小組成員還有李天豪and張振同學。 主題是:基於conv-lstm方法預測共享單車需求 主要參考的論文是:Bao J, Yu H,