原创 使用Python實現Hadoop MapReduce程序遇到的問題解決辦法

1.jar包名不一致 利用python和c等語言在hadoop上寫MapReduce程序,需要用到streaming組件,我在網上找了相關的文檔,基本上都是同一篇寫wordcount的。我發現這篇文章是08年寫的,環境和我現在用的並不一樣

原创 Couldn't reserve space for cygwin's heap方法

用git的時候發現出現 Couldn't reserve space for cygwin's heap 這個問題,上網查了發現是 msys-1.0.dll 地址衝突的緣故。 進入到安裝git的目錄下, 進入到bin下, 使用命令  re

原创 運行crontab時出現hive:command not found和no module named argparse found解決辦法

寫了個shell腳本,是用hive拉取數據之後存在一個文件中,再調用一個python腳本以郵件的附件形式將這個文件發送出去。直接運行的時候完全沒有問題,但是我準備每天弄一個任務定時發送郵件,在crontab 中寫好了相應的語句,等了一會兒

原创 hive使用count等聚合函數忘記起別名怎麼辦?

舉個例子,如果你建了個表,裏面使用到了聚合函數,但是忘記起別名了該怎麼辦? create table table_b as select id,count(1) from table_a group by id; 這個時候,出現的

原创 使用CNN進行句子分類(Convolutional Neural Networks for Sentence Classification)

Yoon Kim在論文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。 文章地址:https://arxiv.org/pdf/

原创 有圖片地址,無需編程,直接在excel中批量展示圖片的方法

今天老闆給了個任務,拿到商品id,能不能把對應的商品圖片展示出來。 已知商品id能夠關聯到商品圖片的url,但是放url雖然可以點擊鏈接到圖片,但是還是不直觀,不行。於是上網百度,相關的回答不是展示鏈接的,就是用代碼編寫的,不夠簡單,搜索

原创 【機器學習】決策樹

參考資料:機器學習實戰 一、決策樹是什麼呢? 舉個例子: 小明來找你出去玩耍,你想不想去呢? 1)不想–結果:不去 2)想–作業沒做完–結果:不去 3)想–作業做完了–結果:去 以圖形化的方式呈現,就如下圖所示

原创 螺旋數組

很早之前在poj上做題的時候就有看到過螺旋式打印出一個二維數組,當時沒做出來,也不知道這個叫螺旋數組,最近看算法的時候又看到了,想着整理一下。 思路如下; 這是一個11*11的螺旋數組,可以分爲4個部分來看,每個部分的長度是10, 同

原创 Hadoop入門+HDFS命令

Hadoop的核心是HDFS和MapReduce 1.HDFS的特點是,適合於 1)大數據 2)硬件廉價 3)高容錯性 4)文件分塊存儲 5)流式數據訪問,不支持動態改變文件內容 它的關鍵元素有: Block:一般大小爲64M, Nam

原创 poj入門水題---2349prime算法生成最小生成樹

題目鏈接:http://poj.org/problem?id=2349 最小生成樹: 連通一些點,要求邊之和最小。 prime 算法 1.選取一個點(一般我就取第一個了,反正最後都是要加入最小生成樹中的= =),標記爲遍歷過。 2.初

原创 hive函數--排序row_number,rank over

從學生的幾門成績中選出成績最好的一門 1.row_number() over select student_id,class,score from ( select student_id ,class,score,row_number(

原创 poj入門水題整理1--按刷題順序解釋

1.1000 A+B 就是熟悉平臺的一道題,下面有案例 2.1004 Financial Management 描述: Larry畢業之後掙錢了想知道他的財務狀況,他現在有他的存款清單,想知道他12個月的結餘有多少 輸入: 12行數字 輸

原创 poj入門水題整理3

1.2000 Gold Coins 描述:第1天得到1個金幣,第2,3天得到2個金幣,第N天得到N個金幣,在得到N天N個金幣後,接下來的N+1天能得到N+1個金幣。 輸入:第N天,以0結束 輸出:第N天 第N天得到的金幣數 解法:其實序列

原创 poj入門水題整理2

1.3979 分數加減法 解法:按題目說明一步步地寫,最後注意求取最大公因數,約分求解,注意整數 2.2017 Speed Limit 描述:Bill 和Ted的里程計壞了,但是他們有個可用的秒錶,所以他們可以記錄速度和行走的實際,但是

原创 檢查hive上的數據分區

在hive上,檢測分區是否產生的方法很簡單: show partitions db.table 數據庫名.表名即可 當然也可以以如下的方式展開: use db; show parttions table 很多時候,我們生成分區的程序和後