R和Python誰更好?這次讓你「魚與熊掌」兼得

作者 | Parul Pandey

譯者 | 大魚

責編 | Jane

出品 | Python大本營(公衆號id:pythonnews)

如果你從事在數據科學領域,提到編程語言,一定能馬上想到 R 語言和 Python語言(以下分別簡稱 R、Python)。現在更多時候大家都把它們兩個放在一起對比,進行“二選一”,而不是把兩個都爲自己所用。其實,無論是 R 還是 Python,兩個都是很優秀的工具。

如果你在 Google 中搜索“R vs Python”,可以看到很多關於二者誰更好的討論。

出現這種現象的原因之一是,使用者們基於自己所使用的編程語言,將數據科學領域分爲幾個陣營,包括 R 陣營和 Python 陣營。兩個陣營的人都十分相信自己選擇的語言遠好於對方的。所以在某種程度上,這種分歧並不全部來自於工具本身,也有來自使用者的原因。

爲什麼不同時使用兩種語言?

其實,在數據科學的圈子裏,也存在同時使用 Python 和 R 的人,但比例是非常小。另外,有一大部分堅持使用某一種語言的人,同時也希望能掌握另一種語言的某些功能。比如,R 的使用者有時候很需要 Python 的面向對象屬性,與此同時,一些 Python 用戶也想使用 R 強大的統計分佈功能。

上圖顯示了由 Red Monk 在 2018 年第三季度所進行的調查的結果。此結果基於 Stack Overflow 和 Github 上語言的受歡迎程度,很明顯 R 和 Python 的得分都很高。從語言本身來說,並不是限制我們不能在同一項目中使用兩者的原因。而我們的最終目標要做更有洞察、有價值的分析,而選擇哪種語言不應該成爲這一過程中的阻礙。

縱觀 R 和 Python

下面我們可以先從幾個不同方面對比這兩種語言,分別看看它們的優缺點。

Python

自 1991 年發佈以來,Python 就極其受歡迎,尤其在數據處理方面被廣泛應用。它如此受歡迎有以下幾個原因:

面嚮對象語言

通用性

可擴展性強,強大的社區支持

易於理解和學習

Pandas、Numpy 和 Scikit-learn 等包使 Python 成爲機器學習的極佳選擇

然而,與 R 不同的是,Python 沒有用於統計計算的專用包。


R

R 首次發佈於 1995 年,隨即成爲數據科學領域應用最廣的工具之一。

幾乎包含你能想到的任何一種統計應用工具包。當前 CRAN 有超過 10 萬個包。

具備極好的可視化工具包,如 ggplot2。

能夠進行獨立分析。

從性能上來說,R 並不是速度最快的語言,而且在處理大型數據集時,可能對內存消耗較大。

“雙劍合璧”

是否可以同時運用 R 超凡的統計能力和 Python 的編程能力呢?我們可以輕鬆地將 SQL 代碼與 R 或 Python 相結合寫成一個腳本,爲什麼不把 R 和 Python 也結合一起使用呢?

將 Python 與 R 同時應用在同一個項目中,有兩個基本的手段,接下來就和大家分享這兩個方法:

R within Python

PypeR

PypeR 提供了一種可以讓 R 連接 Python 的簡單途徑,即通過管道 (pipe)。PypeR 也存在於 Python 的工具包之中,提供了更便捷的安裝方式。當 Python 和 R 之間不需要頻繁進行數據傳輸時,PypeR 非常適用。當我們通過管道運行 R 時,Python 程序在子流程控制、內存控制和跨操作系統(包括 Windows、GNU Linux 和 Mac OS)移植的靈活度都比較高。

pyRserve

pyRserve 使用 Rserve 作爲 RPC 的連接網關,通過這種連接方式,用戶可以在 Python 中設置 R 的變量,同時 R 的函數也可以被遠程調用。

rpy2

ryp2 可以在 Python 進程中運行內嵌的 R 語言。它創建了一種框架,可以將 Python 對象轉化爲 R 對象,再把它們傳入 R 函數,最後將 R 輸出的結果傳回給 Python 對象。


在 Python 中調用 R 語言的優點之一是,我們可以在 Python 中方便地使用 R 語言強大的工具包,如 ggplot2、tidyr、dplyr 等。下面我們通過一個簡單的例子來看看如何在 Python 中使用 ggplot2。

Basic Plot

      https://rpy2.github.io/doc/latest/html/graphics.html#plot

Geometry

     https://rpy2.github.io/doc/latest/html/graphics.html#geometry

關於 rpy2 的資料

rpy2官方文檔

https://rpy2.github.io/doc/latest/html/index.html

RPy2: Combining the Power of R + Python for Data Science:

https://community.alteryx.com/t5/Data-Science-Blog/RPy2-Combining-the-Power-of-R-Python-for-Data-Science/ba-p/138432

Accessing R from Python using RPy2:

https://www.r-bloggers.com/accessing-r-from-python-using-rpy2/

Python with R

我們可以通過如下幾個工具在 Python 中運行 R 語言的腳本:

rJython

該工具包通過 Jython 部署了連接 Python 的界面,提供了將 Python 與 R 連通的接口。

rPython

rPython 也是一個在 R 語言中調用 Python 的工具包,它可以在 R 中運行 Python 代碼,進行函數的調用,以及變量的分配和獲取等。

SnakeCharmR

SnakeCharmR 是改良版的 rPython,它源於 rPython 的 'jsonlite' 分支,相比於 rPython 有諸多提升。

PythonInR

PythonInR 可以讓用戶非常方便地在 R 語言中使用 Python,提供了可與 Python 進行交互的函數。

reticulate

Reticulate 包提供了一整套可使 Python 與 R 互相操作的工具。在所有上面所提到的工具中,這個使用最爲廣泛,大部分原因在於它是由 Rstudio 主導開發的。Reticulate 在 R 模塊中內嵌了 Python 模塊,使兩種語言可以無縫且高性能地相互操作。使用該工具包,我們可以把 Python 代碼 “編織” 進 R 語言中,創造了一種將兩種語言相結合的新型項目。


Reticulate 包提供了以下功能:

提供多種在 R 語言中調用 Python 的方式,包括 R Markdown、導入 Python 腳本、引入 Python 模塊,以及在 R 模塊中使用 Python。

提供 R 對象和 Python 對象間的相互轉換(例如,R 與 Pandas 數據框的轉換,或 R 矩陣與 NumPy 數組的轉換)。

可與不同版本的 Python 進行靈活的合作,包括虛擬環境和 Conda 環境。

關於 reticulate 工具包的資源:

該文檔提供了許多實例來助你入門:

https://rstudio.github.io/reticulate/

使用 reticulate 包,在 R 語言中使用 Python:

https://longhowlam.wordpress.com/2017/04/10/test-driving-python-integration-in-r-using-the-reticulate-package/

工具包中的 “蛇”:用 reticulate 將 Python 與 R 聯結:

https://www.mango-solutions.com/blog/snakes-in-a-package-combining-python-and-r-with-reticulate

結論

R 和 Python 都是完整且穩定的語言,都足以完成一項數據分析任務。雖然二者均存在一些各自的優劣勢,如果能利用好它們的優點,我們就能更好地完成任務。總之,同時掌握兩種語言會使我們更加靈活,從而在多種環境下自如地工作。

原文鏈接:

https://towardsdatascience.com/from-r-vs-python-to-r-and-python-aa25db33ce17?gi=da69b4bfd654

(本文爲AI科技大本營轉載文章,轉載請微信聯繫 1092722531)

「2019 Python開發者日」7折票限時開售!這一次我們依然“只講技術,拒絕空談”,除了10餘位一線Python技術專家的演講外 ,大會還安排了深度培訓實操環節,爲開發者們帶來更多深度實戰的機會。掃描海報二維碼,即刻搶購7折票!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章