原创 Git(2)

本篇博客主要兩個方面的內容,fork分支同步問題和多次commit合併問題。 fork同步方法,怎麼去同步主分支的代碼或者其他分支代碼: 配置源倉庫地址          git remote add upstream 源倉庫地址 查看是

原创 遠程服務器項目發佈

一下是兩種方法: (一)JavaWeb 項目發佈 三個基本要素:JDK環境,web服務器(例如:Tomcat),數據庫(例如:MySQL) 注:如果是查詢較爲頻繁數據庫中間加一層緩存數據庫,例如:redis 一般項目通過Maven進行管理

原创 HashMap入坑

在實現Java字典形式時,遇見了k,v形式覆蓋問題,內心很崩潰。python轉到java還真的很多不習慣,最後解決方式爲重新定義實例化。問題就解決了。 public HashMap<Integer, ArrayList<Integer>

原创 Git記錄(1)

對於項目協同開發,git是很不錯的使用,對於一般的開發一般分爲以下幾個步驟: 1,創建本地倉庫mkdir   your dir 2,實例化本地倉庫  git init  (ls時會有-------git的文件) 3,檢出項目(你入職的時候

原创 python install numpy+scipy+matplotlib

本篇文章將講解python第三方庫的安裝及本人遇到的一系列問題,主要針對windows版本的安裝。 首先,在安裝第三方版本的時候需要特別注意自己安裝python的版本號,我安裝的是python2.7——64位,在這裏建議大家安裝64位,3

原创 自己的一些感想(1)

在大學期間,讀了一個比較一般的大學,學了一個在學校排名倒數的專業計算機(被調劑了還有什麼辦法,沒關係沒錢),算是入坑了。曾經有這樣一句話:“大學是一片草原,而我們就是一匹匹野馬,讓沉者更沉,讓浮者更浮”,所以這樣的環境那就是九分靠自己一分

原创 Spark和Hadoop的關係

直到現在BAT等一些互聯網公司對大數據炒得很火,但很多人並不知道Spark和Hadoop的關係。很大一部分人說Spark會取代Hadoop,當然也有一部分人對其持反對意見。那到底會不會呢?下面我們先分別對Spark和Hadoop進行結構化

原创 Python列表問題解決

在做社交網絡分析中,遇到這樣一個問題: 針對無向圖,節點間存在共同的邊,1,2)=(2,1)。這時我需要刪除重複的一條邊,如:(1,2)=(2,1)移除其中的一條。對於列表的操作這裏不再累述,網上已經有很多了。這裏考慮到直接使用remov

原创 軟件重裝問題

很多時候會遇到這樣一個問題,安裝的軟件突然無法使用了,一般情況恢復或者重裝。如果這個軟件裏的數據很重要,如:Mysql,這是首選恢復辦法,網上一大推自己看看就行。 在第二種情況下,軟件重裝問題,很多時候重裝的軟件無法使用。這時一般人回事k

原创 hive記錄中包含換行符時存儲格式爲textfile導致多行記錄問題

在處理hive數據記錄時發現orc格式時本來一行記錄,但是在轉textfile文件時導致多行錯誤記錄;在排查中發現textfile使用‘\n’來識別行數據,數據中包含換行符導致這樣的錯誤。處理方式,一:使用SQL的方式過濾掉這類字符(re

原创 datax的數據缺失的一次處理

應用場景:hive to gp 的數據抽取,在實踐中發現存在大量的數據缺失,hive數據完整,而往gp抽數後gp數據存在數據缺失的問題。在datax官方github上有人討論是hive 的orc數據格式的問題。這感覺很坑啊!後面試了很多種

原创 hive 開窗日期類型錯位導致無法排序

錯誤:Underlying error: Primitve type DATE not supported in Value Boundary expression 解決方式將date 類型轉換成string,cast(column as

原创 hive學習中錯誤總結(二)

錯誤原因:hive表做了分區,項目需要統計當月的數據,我們將數據按月進行了加工然後做了存儲。相當於ODS-->DW-->APP的過程。整個邏輯已經實現,需要做一個工作流的調度,項目組使用的airflow;坑就出現在airflow的調度,讓

原创 大數據之kylin(一)----kylin的搭建分類和多節點的搭建實戰

本篇博客主要介紹kylin的搭建方式的分類和部署多節點的方式實戰 kylin主要作爲一種預計算的大數據工具來提高大數據下的查詢速度工具,在實際的應用中入門較快,上手容易。具體的相關知識可以參考http://kylin.apache.org

原创 大數據之流處理----流處理中的消息投遞方式

消息投遞中的可達性保證,一般是三種方案分別爲:at most once(至少一次),at least once(至多一次),exactly once(恰好一次)。 at most once:在消息投遞中每個消息投遞0次或者1次,存在數據丟