1995年,正是互聯網方興未艾之時,雅虎橫空出世,雅虎以提供互聯網各種信息目錄起家,迅速崛起成爲世界互聯網巨頭,整個互聯網行業也迎來了門戶網站時代。彼時的第一批互聯網居民,要想在互聯網上獲取信息,就需要登錄雅虎等門戶網站,一頁頁地翻找目錄。即使這樣,也極大地方便了大家獲取信息。
然而,隨着互聯網信息爆炸式增長,門戶網站的這種收錄目錄的形式根本不能適應日漸暴漲的互聯網內容。於是,以谷歌爲代表的搜索引擎公司,一方面通過爬蟲實時抓取互聯網信息,一方面通過智能搜索算法,根據用戶搜索關鍵詞,匹配最合適的網頁,谷歌也藉此超越各大門戶網站,躋身成新的互聯網巨頭。
在機器學習和人工智能的學習過程中,數據集是橫亙在初學者之間的一座大橋,我在:
機器學習超詳細實踐攻略(1):盤點scikit-learn裏那些有趣又有用的彩蛋級入門數據集
兩篇文章中已經介紹了一些初學者尋找數據集的網站和思路。但是,這些方法尋找數據集的時候需要登錄不同的網站,然後在裏邊翻找自己可能用到的數據集。可以說,在尋找數據集方面,包括我寫的所有知乎答案在內,仍然停留在“門戶網站”的1.0時代。
其實,數據集本質上也是一種信息,如果需要從網上找到某個知識,或者某一張圖片,只需要搜索引擎輸入關鍵字就可以了。那是否可以輸入一個關鍵字,就可以找到這個領域的所有數據集呢?
如今,經過一年的測試,谷歌正式推出了一款名爲“Google Dataset Search”的數據集專用搜索引擎,目前已經涵蓋了2500萬個數據集,以後需要數據集,只需要從這個統一入口尋找就可以了,徹底讓尋找數據集進入“搜索時代”。網站界面如下所示:
目前,搜索引擎收錄的數據集涵蓋了地球科學、生物學和農業等各種領域。包含了世界上大多數政府、科研機構、大學等機構發佈的數據集,而且數據集的數量繼續增加。並且支持普通人按照schema.org的開放標準添加和上傳數據集。
利用這個數據集搜索工具,我們可以通過簡單的關鍵字來查找全網中的數據集。對初學者來說,可以更方便地尋找自己感興趣的數據集,對於整個人工智能行業來說,一方面形成一個數據共享生態系統,鼓勵數據發佈者按照規定格式存儲和發佈數據;另一方面也爲數據科學家提供相應平臺,方便大家引用他們創建的數據集,以使他們的研究成果獲得更大的影響力。
一、使用方法
1、搜索方法
進入““Google Dataset Search”網站(網站地址:Dataset Search),這裏,我們搜索一下經典的“泰坎尼克號”數據集,可以看到,左側列出了很多數據集來源。點擊排在第一位的kaggle源,還可以查看該數據集的作者、支持下載的格式、數據集的說明、數據集大小等信息。
再搜索一個鳶尾花數據集看看結果:
2、篩選搜索結果
對於搜索結果,還可以根據更新日期、下載格式、使用權限、是否免費四個條件進行篩選。進一步定位我們需要的數據集。
從以上搜索流程中可以看到,數據集的搜索和我們平常的搜索習慣和方式並沒有什麼不同。
3、其他應用
發佈數據集的網站,很多都是諸如kaggle這樣的競賽網站,還是以泰坦尼克號數據集爲例,點擊這個數據集,直接跳轉到了kaggle的主頁,下載數據集的時候,還可以順便研究一下其他人的實現代碼。
也就是說,通過這個搜索引擎,不僅可以找到數據集,還可以找到對應的數據比賽以及一些選手的思路,即找問題,又能順便找到答案。
二、不足
對於國內使用者來說,目前有兩點不足,一是對中文支持不是很友好。比如,搜索鳶尾花數據集的時候,如果輸入中文,則提示:找不到匹配的數據集。
二是需要一些上網技巧才能訪問這個網站。
現在擺在我們面前的障礙,只有需要一些上網技巧和語言限制了。
寫在最後
以搜索起家的谷歌,近年來在人工智能方面也是碩果累累,Tensorflow深度學習框架、Colab免費雲計算實驗室、各種頂會里的論文以及前幾年流行一時的“你畫我猜”等人工智能小程序,皆出自谷歌之手。甚至開發了Alphago,帶動人工智能領域大火的 DeepMind公司,也被谷歌收入麾下。
在學習人工智能知識方面,數據集搜索絕對是剛需,搜索引擎出身的谷歌,也必然有實力讓搜索數據集和搜索普通知識一樣簡單。
隨口吐槽一句:寄希望於在國內自顧不暇的百度來跟隨谷歌建設國內自己的數據集搜索系統,怕是遙遙無期了。
##############################################################
如果覺得有用,點贊、關注再走唄~