虛擬機ODPS初體驗

 

   大數據競賽的第二階段需要通過遠程桌面的方式連接阿里提供的虛擬機, 所有操作都是在遠程主機上進行, 在搞清楚文件回傳方式之前真是各種麻煩(寫博客都沒有辦法貼代碼)。

    用了兩個上午初步上手, 希望接下來進展順利, 不要第一個月就慘遭淘汰。

 

   首先在cmd 通過mstsc 鏈接遠程桌面,  遠程桌面上只有一個我的電腦圖標。 C盤目錄下的TOOLS文件夾中有eclipse ,python,xlab 和odps客戶端等工具。

 

   這一階段是把結果保存爲odps中的一個指定名稱的表, 所以直接在ODPS中 用sql操作訓練集並生成結果表 比較簡單(操作上), 但是僅僅用sql 很難實現比較複雜的模型,因爲我sql是在太渣 。 xlab 中支持sql的批量提交。 登入時需要根據ODPS的配置文件中的信息來填寫賬戶, 這樣進入工作空間後就能看見訓練集。 並且這個訓練集是可以導出的,這也爲通過其他方式生成結果表提供可能。

    除了sql外, 也可以通過mr編程來實現分類。 但是要把分類模型寫成符合mr的規範還是需要好好想想, 而且提供的框架裏 mapper reducer 是分開的兩個類文件,要通過某種方式實現全局變量的訪問。

 

   根據實例實現了Wordcount 程序,  但是在ide的目錄下看不到運行的結果文件, 要到項目空間中自己去找。

 

   這個mr框架貌似輸入輸出都是表類型, 直接打包後通過在命令行中調用的方式應該就可以生成結果了。 使用mr來實現這一階段應該是初步方向。 

   

   下一次淘汰在半個月後, 祝好運。

發佈了134 篇原創文章 · 獲贊 3 · 訪問量 27萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章