原创 spark sql是怎麼變成執行計劃的

概覽 Spark SQL模塊,主要就是處理跟SQL解析相關的一些內容,說得更通俗點就是怎麼把一個SQL語句解析成Dataframe或者說RDD的任務。以Spark 2.4.3爲例,Spark SQL這個大模塊分爲三個子模塊,如下圖所示

原创 clickhouse user.xml

config.xml文件可以使用用戶設置,配置文件和配額指定單獨的配置。 此配置的相對路徑在users_config元素中設置。 默認情況下,它是users.xml。 如果省略users_config,則直接在config.xml中指定用戶

原创 clickhouse config.xml

1. builtin_dictionaries_reload_interval:重新加載內置詞典的時間間隔(以秒爲單位),默認3600。可以在不重新啓動服務器的情況下“即時”修改詞典。 <builtin_dictionaries_relo

原创 clickhouse總覽

簡介 Yandex在2016年6月15日開源的一個數據分析的數據庫,名字叫做ClickHouse ClickHouse存儲層 ClickHouse從OLAP場景需求出發,定製開發了一套全新的高效列式存儲引擎,並且實現了數據有序存儲、主鍵

原创 行存儲和列存儲

列存儲的數據庫更適合OLAP 行存儲的數據庫更適合OLTP 所謂的快只是針對於進行olap操作而言 我們知道,數據在存儲中的基本單位爲頁,這也是進行數據讀取時候基本單位,一次讀取就是一次IO操作 以sql server爲例,一個數據頁大小爲

原创 pyspark AnalysisException: u'Text data source supports only a single column, and you have 5 columns

pyspark dataframe 多列數據當我們想存儲爲text格式的時候: df.coalesce(1).write.format("text").option("header", "false").mode("append").sav