Kaggle API快速下載數據集以及jupyter notebook添加內核

  • 一直有在kaggle上嘗試一些比賽,不可避免要下載一些超大數據集,但直接在Data頁面通過瀏覽器下載速度太慢,kaggle官方也提供了API便於快速下載數據集,具體操作也很簡單。

一、Kaggle API安裝及使用(ubuntu16.04)

1.終端下安裝:pip install kaggle
2.登錄kaggle賬戶,右上角頭像處點擊My Account,在API欄,點擊Create New API Token下載kaggle.json文件
3.終端下創建.kaggle文件:
cd ~
mkdir .kaggle
cd ~/.kaggle/
也可以直接在Home目錄下手動創建.kaggle文件夾
4.將下載好的kaggle.json文件放入.kaggle文件夾
5.進入對應比賽Data頁面,點擊粘貼API右側的數據集下載指令到終端(以Titanic爲例)
kaggle competitions download -c titanic
6.在終端中可以查看數據集下載路徑

二、添加conda創建的虛擬環境對應的kernel核

  • 在kaggle比賽中,很大部分參賽者Types都會使用Notebook工具實現他們的代碼,也即.ipynb文件,我使用的是Anaconda3工具附帶的jupyter notebook,也可以選擇使用Google Colab。
    但是jupyter notebook默認的Kernel是Python 3,如果想要使用在conda中配置好的虛擬環境對應的Kernel,則需要添加對應Kernel至/home/(用戶名)/.local/share/jupyter/kernels/XXX中。
    具體步驟爲:
    1.激活conda中創建好的虛擬環境:source activate XXX
    2.然後在該環境下安裝ipykernel:python -m ipykernel install --user --name XXX --display-name “Name”
    XXX:創建的虛擬環境名稱
    Name:你想展示在jupyter notebook上kernel的名稱
    注意!網上一些資料通過:python -m ipykernel install --name kernelname
    或者:python -m ipykernel install --name XXX --display-name "Name"我都沒有成功
    至此相應的文件夾已添加到/home/(用戶名)/.local/share/jupyter/kernels/XXX中
    查看當前安裝了哪些kernel:jupyter kernelspec list
  • 詳情參考

三、關於下載的數據集不能解壓問題

這是在我電腦上出現過的問題,下載後的壓縮包右上角帶有一把鎖的標記,解壓縮時提示出錯,
權限的問題,可cd到對應目錄下通過以下方法解決:
1.sudo chmod 777 文件名/文件夾名
2.sudo chown 用戶名 文件夾名/ -R

發佈了9 篇原創文章 · 獲贊 40 · 訪問量 8446
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章