原创 設置jupyter可啓動python2或python3作爲kernel

(作者:小白白白又白cdllp,data-master.net) 很多時候,雖然我們習慣用某個版本的python,但可能需要使用的python版本會發生改變,比如我們在合作方的機器環境下使用python時,或者拿到一份其他版本的p

原创 Elastic Search中如何查看索引數據?

(www.data-master.net 數據極) 問題: 我遇到了ElasticSearch和Rails的問題,由於attr_protected,一些數據沒有正確編入索引。Elastic Search在哪裏存儲索引數據?怎麼檢查

原创 Hive解決return code 3問題

(作者:陳玓玏) 1. 問題描述 使用hive跑數時,出現return code 3的錯誤,但沒有報出代碼中具體位置的錯誤。 2. 問題原因 具體原因不是非常清楚,但是網上提到的原因最有可能的是數據傾斜導致的,具體的表現就是任務執

原创 查找hive表的存儲位置並查看錶文件大小及分區文件名

(作者:陳玓玏) 有時候我們需要查看Hive表對應文件的文件大小,那麼分兩步: 知道Hive表在HDFS中的存儲位置; 查看Hive表對應的文件大小。 1. 知道Hive表在HDFS中的存儲位置 使用show create t

原创 Json錯誤JSONDecodeError: Extra data解決方案

(作者:www.data-master.net 數據極) 問題描述: 使用以下代碼轉換字符串爲json格式時,出現JSONDecodeError: Extra data的錯誤: import json import pandas

原创 TensorFlow實現卷積神經網絡、深度神經網絡識別手寫體

(作者:陳玓玏) 分享一個朋友的人工智能教程。零基礎!通俗易懂!風趣幽默!還帶黃段子!大家可以看看是否對自己有幫助http://www.captainbed.net/luanpeng 因爲比較好奇不同神經網絡的效果差異,分別使用卷

原创 JSON錯誤JSONDecodeError: Expecting delimiter解決方案

(作者:www.data-master.net 數據極) 問題描述: 使用以下代碼將字符串轉換爲JSON對象時出現錯誤: import json import pandas as pd df = pd.read_csv('te

原创 Anaconda中安裝不同版本的python並安裝對應包

(作者:陳玓玏) 在實際使用Python的過程中,我們常常需要安裝不同版本的Python環境,並且安裝相應的各個package。 這裏我們解決三個問題: anaconda中如何安裝多個版本的Python; anaconda中如何

原创 Hive表查看各個分區的更新時間

(作者:陳玓玏data-master.net) '查看hive各分區更新的時間: show create table dev.cdl_monitor; 找到LOCATION,表示的就是hive表的數據存放的路徑 (下面的圖片,有

原创 pip離線通過whl文件安裝包

(作者:陳玓玏data-master) 在離線環境下,我們沒有辦法直接通過pip install來安裝包,此時我們需要通過離線文件來安裝python包。 大部分的python包都可以在這個網址找到: https://pypi.or

原创 Hive return code 2以及concat與concat_ws的區別

(作者:陳玓玏data-master.net) 一、 Return code 2錯誤 用hive跑數的時候,常會碰到一個錯誤: FAILED: Execution Error, return code 2 from org.apa

原创 在Elastic Search同時搜索多個字段

(作者:www.data-master.net 數據極) 問題: 我是使用elastic search的新手,我想知道如何進行指定一個或多個字段的搜索。 使用SQL我會寫這個查詢: "SELECT field1, field2,

原创 Hive中的元數據庫

(作者:www.data-master.net 數據極) 在之前的Hive架構圖中,我們已經看到Hive的架構中有一個metastore,元數據庫。那麼元數據庫是做什麼的呢? 已知Hive中不會真正地存儲數據,它是一個純邏輯表,那

原创 Hive的產生背景

(作者:www.data-master.net/數據極) 最初的時候,世界範圍內的IT系統都不是很成熟,數據量很小,數據產生的價值也只是做簡單的分析,用MySQL等簡單的數據庫就可以搞定了。 到1997年,“大數據問題”被提出,由

原创 Hive的架構

(作者:www.data-master.net 數據極) Hive是基於Hadoop的,hadoop包含hdfs(管理數據),yarn(管理job)。其中hdfs主要由Data Node和Name Node組成,Data Nod