原创 Spark報錯java.lang.IllegalStateException: User did not initialize spark context!

這種錯誤往往讓人摸不着頭鬧,日誌完全看不出點在哪:以下是錯誤信息: java.lang.IllegalStateException: User did not initialize spark context! at org.a

原创 Typora 段落如何快速首行縮進兩個字符

Typora 段落如何快速首行縮進兩個字符 在typora中其他快捷方式很多教程,但是首行縮進卻很少,今天就和大家分享一下這個工具的快捷縮進方式; 換行後首先按一下空格鍵,前面出現一個點,然後在按TAB鍵,這樣就能實現首行,兩個字符的

原创 Mac idea添加內存

網上很多教程都是在Application中的打開包含Contents\bin中修改idea.vmoptions,其實這個文件在idea啓動的時候並未加載,所以更改之後並沒有什麼作用; 因此找了好多才發現,在mac中啓動的時候加載的配置

原创 Linux環境和crontab環境運行結果不一樣

這個問題主要是由於在腳本中存在類似與hadoop等需要添加額外環境變量的命令,因此,在引用此命令之前需要將hadoop等相關環境引入到shell中,因爲crontab的運行環境和個人用戶的運行環境會有所區別的。 雖然在shell 的c

原创 vim 常用 NERDTree 快捷鍵

vim 常用 NERDTree 快捷鍵 ctrl + w + h 光標 focus 左側樹形目錄 ctrl + w + l 光標 focus 右側文件顯示窗口 ctrl + w + w 光標自動在左右側窗口切換 ctrl + w

原创 在linux中執行shell腳本,當前用戶執行沒有問題,設置爲定時任務卻報錯

在linux中執行shell腳本,當前用戶執行沒有問題,設置爲定時任務卻報錯,有可能的原因有 主要原因是crontab執行和當前用戶的執行權限和配置環境不一樣,所以導致你的配置環境在crontab用戶上還得重新配置一次,只需要在開頭的時候

原创 論文頁眉設置奇數偶數頁不同頁眉,奇數頁爲各章題目,偶數頁爲論文題目

正文頁眉:奇數頁爲各章題目,偶數頁爲論文題目 1 首先要設置文章分節一般論文可分爲多節,包括摘要,目錄,正文,參考文獻致謝等等,在word中每一頁的末尾添加分隔符下一頁開始新節,如下圖: 2 分節之後,在每一節編輯頁眉的時候一定要將

原创 python關於正則匹配無效問題

在linux狀態下,有些在正則中的特殊字符無法看見,比如\n,一定要記得替換掉。 另外一個就是字符編碼的問題,要統一改成utf-8模式取匹配中文,str(xxxx).decode(‘utf-8’),在正則中則多添加一個u ,如正則’關於

原创 linux中文本編碼轉換

Linux中中文編碼轉換命令 查看文件編碼格式爲 : file -i filename 轉換編碼格式命令爲(enconv 需要安裝的第三方工具): enconv -L zh_CN -x UTF-8 filename 文件轉中文

原创 ES集羣超時timeout,以及批量插入數據

ES集羣出現timeo=10ms的問題 在es進行批量插入的時候,默認的超時設置的10ms,有時候並不能滿足要求可以手動修改,可以在程序中添加如下配置: es = Elasticsearch(“IP”,timeout=30) 另外在集羣出

原创 Kafka Consumer

轉載 通過之前的架構介紹,對Consumer有了一個初步的瞭解。這裏再深入一點來了解一下Consumer。 1、Consumer Group 與 topic 訂閱 每個Consumer 進程都會劃歸到一個邏輯的Consumer Group

原创 Spark-scheduler原理剖析

分佈式運行框架 Spark可以部署在多種資源管理平臺,例如Yarn、Mesos等,Spark本身也實現了一個簡易的資源管理機制,稱之爲Standalone模式。由於工作中接觸較多的是Saprk on Yarn,不做特別說明,以下所述均表示

原创 大數據環境下的數據安全

與傳統數據安全相比,大數據安全有什麼不同 傳統數據安全技術的概念是基於保護單節點實例的安全,例如一臺數據庫或服務器,而不是像Hadoop這樣的分佈式計算環境。傳統安全技術在這種大型的分佈式環境中不再有效。另外,在大規模的Hadoop集羣中

原创 在shell腳本中如何調用hadoop 命令

我們在shell腳本中可能會用到hadoop或者其他命令,而這些命令可能是一個整體,如果我們只是簡單的寫入到shell腳本中,可能會被分解成其他的各個子字段,即有可能會分成兩部分去執行,這樣就會導致命令執行失敗。 hadoop fs -

原创 配置Hanlp

配置Hanlp自然語言處理進階 中文分詞 中文分詞中有衆多分詞工具,如結巴、hanlp、盤古分詞器、庖丁解牛分詞等;其中庖丁解牛分詞僅僅支持java,分詞是HanLP最基礎的功能,HanLP實現了許多種分詞算法,每個分詞器都支持特定的配置