原创 hilbert曲線用於空間索引

    前文我們介紹了Hilbert曲線的原理以及,其在n*n方格中的排列以及編碼解碼的實現。而本文主要介紹其在空間索引中如何應用。其原理參考上文,待看懂原理之後,如下代碼便能一下理解 1.確定Hilbert的形狀以及映射規則

原创 Pipe in PySpark

官網的文檔聲明,pipe管道將pyspark的RDD對象fork給外部進程,然後再返回RDD對象 >>> sc.parallelize(['1', '2', '', '3']).pipe('cat').collect() [u'1', u

原创 Hilbert曲線介紹以及代碼實現

    空間填充曲線是指,一維曲線去包含整個二維甚至多維空間的一種函數曲線。而根據不同的排列規則,可以得到不同的空間填充曲線。     如Z-order曲線, 如圖1(也就是geohash採取的曲線),Peano曲線如圖2,以及本文將介

原创 Windows+Pycharm+Spark環境配置

一、 環境配置 1)Python環境配置 2)Pycharm可在官網下載 3)以及相應版本的Spark下載。如登錄Spark官網,下載1.6.0的版本。 - 並將壓縮包解壓,解壓至相應路徑,如D:\spark-1.6.0-bi

原创 "Exception: Python in worker has different version xx than that in driver xxx

即問題原因是pyspark的python環境與driver也就是主節點的python環境版本不一致 spark-submit提交程序,如若還是這個問題 在python代碼中添加 import os os.environ['PYSPARK

原创 pyspark用pipe管道調用bash腳本時,遇到Permission Denied問題

    當用pyspark在CDH的yarn集羣上運行時,用pipe管道調用bash腳本若遇到如下問題 "/usr/lib64/python2.7/subprocess.py", line 1234, in _execute_child

原创 XXX is not in the sudoers file. This incident will be reported.

1)切換到root用戶下 2) /etc/sudoers文件默認是隻讀的,對root來說也是,因此需先添加sudoers文件的寫權限,命令是:     chmod u+w /etc/sudoers 3) 編輯sudoers文件

原创 Linux下TBB安裝及編譯

TBB,Thread Building Blocks,線程構建模塊,是Intel公司開發的並行編程開發的工具。其提供C++模版庫,用戶不必關注線程,而專注任務本身。抽象層僅需很少的接口代碼,性能上毫不遜色。且能夠靈活地適合不同的多核平臺,

原创 D3簡介

D3 的全稱是(Data-Driven Documents),顧名思義可以知道是一個被數據驅動的文檔。聽名字有點抽象,說簡單一點,其實就是一個 JavaScript 的函數庫,使用它主要是用來做數據可視化的。 D3的優勢 1) 數據能

原创 Leaflet GridLayer簡介

L.GridLayer 是一個一般類,其用於HTML元素的格網切片。它是所有切片層(Tile Layer)的基類,且替換了之前版本的TileLayer.Canvas. GridLayer可以被用於擴展canvas, img 或者 div類

原创 Spark2.0以下讀取csv數據並轉化爲RDD

當Spark 版本低於2.0.0時,以及不借助與其他包的情況下,可以用如下方法將csv數據轉化成RDD sc = SparkContext() //獲取RDD csvfile = sc.textFile("xxx.