原创 DNNLinear組合分類器的使用 & Feature column

文章目錄DNNLinearCombinedClassifier__init__trainevaluatepredictFeature column1.numeric_columns(數值列)2.bucketized_column(

原创 pandas常見方法

文章目錄pd.DataFrame的創建字典創建列表創建單個元素字典轉DataFramepd.DataFrame的導入查看數據屬性常用方法增刪缺失值處理文本數據(字符串)處理索引設置 pandas中的DataFrame: 1、Dat

原创 目標檢測

文章目錄目標檢測技術的演變R-CNNSPP NetFast R-CNNFaster R-CNN彙總 目標檢測技術的演變 在過去的十多年時間裏,傳統的機器視覺領域,通常採用特徵描述子來應對目標識別任務,這些特徵描述子最常見的就是 S

原创 圖像相關數據集

文章目錄PASCAL VOCCIFAR-10CIFAR-100ImageNetLFW人臉 PASCAL VOC PASCAL VOC爲圖像識別和分類提供了一整套標準化的優秀的數據集,從2005年到2012年每年都會舉行一場圖像識別

原创 相似度、距離計算

目錄1、Jaccard相關係數定義例子代碼2、餘弦相似度定義代碼3、皮爾森相關係數定義4、歐式距離定義代碼5、曼哈頓距離定義6、漢明距離(Hamming distance)編輯距離定義代碼 1、Jaccard相關係數 定義 給定兩

原创 多種歸一化方法

目錄1、(0,1)標準化2、Z-score標準化3、Sigmoid函數 在數據挖掘中,當不同的特徵列在一起的時候,由於特徵本身表達方式的原因而導致在絕對數值上的小數據被大數據“吃掉”的情況,這個時候我們需要做的就是對抽取出來的fe

原创 matplotlib.pyplot——plt

目錄plt.scatter():顯示散點圖函數原型參數解釋函數樣例plt.plot():顯示趨勢圖函數原型參數解釋函數樣例plt.bar():顯示柱狀圖函數原型參數解釋函數樣例其他函數函數樣例 import matplotlib.

原创 直線擬合

1、scipy擬合方法  python中scipy模塊的子模塊optimize中提供了一個專門用於曲線擬合的函數curve_fit()。可以適用於任意形式的曲線的擬合和繪製,只要定義好合適的曲線方程即可。 from scipy impo

原创 python數據類型轉換

1、dataframe類型轉list M_list = M_df.collect() >>type(M_list ) >>list >>M_list[0] >>Row(cd='47', name='插座', dep='89', dep_

原创 spark的DataFrame數據保存到hdfs產生過多小文件

什麼是小文件? 小文件是指:每個block中的結果只有幾百K,這在機器學習算法的結果輸出中經常出現,這是一種很大的資源浪費。、 爲什麼會有小文件: 怎麼避免小文件: 有了小文件怎麼去除小文件:

原创 hadoop fs 命令詳情

查看文件: 1 hadoop fs -ls <path>    列出指定目錄下的子目錄,支持pattern匹配(例:hadoop fs -ls hdfs://ns19/user/ma/usr/shgua*)。 2 hadoop fs -l

原创 pyspark 常見錯誤

1、Connection refused 鏈接被拒絕,這種情況是pyspark的配置有問題,還沒到,檢查配置就好。 2、檢查語法錯誤,語法無誤後,鏈接executor

原创 Spark持久化、持久化級別

一、RDD持久化 Spark 中一個很重要的能力是將數據持久化(或稱爲緩存),在多個操作間都可以訪問這些持久化的數據。當持久化一個 RDD 時,每個節點的其它分區都可以使用 RDD 在內存中進行計算,在該數據上的其他 action 操作將

原创 pyspark報錯及處理

一、基本內存的介紹: --driver-memory 40g \        內存 --executor-memory 40g \        內存 --num-executors 200 \        個數 --executor

原创 pysaprk數據傾斜怎麼解決?

一、數據傾斜危害? 單個或少數的節點數據量特別大,但一個 Stage 所耗費的時間,是由最慢的那個 Task 決定,所以數據傾斜會導致兩個後果: OOM(單或少數的節點); 拖慢整個Job執行時間(其他已經完成的節點都在等這個還在做的節點