開源大數據開發平臺DataSphereStudio&Linkis安裝記錄

        Linkis:https://github.com/WeBankFinTech/Linkis

        DataSphereStudio:https://github.com/WeBankFinTech/DataSphereStudio                   

        編譯部署常見問題:https://github.com/WeBankFinTech/Linkis/wiki/%E9%83%A8%E7%BD%B2%E5%92%8C%E7%BC%96%E8%AF%91%E9%97%AE%E9%A2%98%E6%80%BB%E7%BB%93

        DSS常見問題列表:https://github.com/WeBankFinTech/DataSphereStudio/blob/master/docs/zh_CN/ch1/DSS%E5%AE%89%E8%A3%85%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E5%88%97%E8%A1%A8.md

        用戶登錄認證方式:

       https://mp.weixin.qq.com/s/OB3H0xnWIZ9-mTy9FI3UkA

        LDAP參考文檔:

        https://www.sohu.com/a/284300312_283613

         DataSphereStudio(DSS)是微衆銀行開源的一站式大數據開發平臺,開源於19年7月左右,目前市面上只發現這一個產品。基於公司需求,我們調研後發現基本滿足現有的需求,於是安裝。安裝過程踩了些坑,在這裏記錄分享下。

環境:

centOS7

DSS 0.7.0

Linkis 0.9.3

1.spark任務請求資源報錯,版本不兼容,如下:

ERROR DWCException{errCode=20010, desc='NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy;', ip='nl-dss2', port=9106, serviceKind='sparkEntrance'

微衆使用的hadoop版本是2.7.2,spark使用的是2.4.3,spark內hadoop的相關的包是2.7.3版本,在安裝成功後請求spark資源的時候會報錯,將linkis-ujes-spark-enginemanager下原有的hadoop移出,把spark jars下面的hadoop複製到linkis-ujes-spark-enginemanager的lib下,就可以了

2.分佈式安裝的時候報錯(獲取Yarn隊列信息異常)需要你的hadoop集羣互相免密

先排查下訪問yarn的web藉口是否有問題,可以把yarn的web地址直接配成wds.linkis,yarn.rm.web.address屬性,在RM的linkis.properties裏

分佈式安裝時distribution.sh不要有默認的127.0.0.1,全都寫成真實的ip或者主機名,安裝後最好檢查下每個任務的application.yml,裏面的defaultZone可能有錯。分佈式安裝後,其他臺的機器我還需要自己啓動,start-all.sh無法啓動其他機器上的服務,希望這點後面版本能夠改進。

3.新增用戶後,查看不了元數據

我是開啓了hive權限,grant all on database default to user test 後好了。

4.visualis顯示沒有權限查看:暫未解決

5.總資源數會變動,本來有48G內存,用到24G的時候顯示100%使用

解決辦法:我們一開始用的Capacity Scheduler,後來換成Fair Scheduler就好了

6.啓動一次spark任務,結果啓動了兩個引擎,還在檢查,可能是同時請求的併發數太多了,等待時間過了,導致重新請求,結果起了兩個:原因可能是多次點擊運行和取消。

7.hive執行計算的時候報錯:

The ownership on the staging directory /tmp/hadoop-yarn/staging/test4/.staging is not as expected. It is owned by root. The directory must be owned by the submitter test4 or by test4

權限問題,需要把新建用戶放到supergroup裏,工作流刪除重建就可以了,不然還會報這個錯:

8.更新到DSS0.8.0後,使用ldap上的賬號建工作流時報錯:

解決辦法:新增用戶需要在dss-serve/conf下的token.properties和azkaban/conf下的azkaban-users.xml增加相關用戶信息

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章