原创 機器學習(二):線性迴歸淺談

定義: 線性迴歸:用一條直線較爲準備的描述數據 之間的關係(注:通過屬性的線性組合來進行預測的線性模型,找到一條直線或者一個 平面,使得預測值與真實值之間的誤差最小,常見於房價的預測) 特點: 計算熵不復雜,但是對非線性的擬合併不好注:(

原创 機器學習(一):監督學習與非監督學習

首先來一個大概的定義: 監督學習:通過訓練讓機器自己找到特徵和標籤之間的聯繫(注:也就是學習的訓練集包含輸入和輸出,得到了最優參數模型之後 ,新來的數據集在面對只有特徵沒有標籤的情況下時,可以判斷出標籤) 無監督學習:訓練數據中只有特徵沒

原创 The maximum path component name limit

今日同事一個測試的任務經常異常退出 查看相關job日誌: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.ipc.RemoteExcep

原创 hive小文件造成map多

問題現象:hive查詢時生成了大量的map,損耗了過多的cpu資源,參數調配沒有生效 問題分析: hive的map數 是由設定的inputsplit size來決定,hive封裝了hadoop給出了inputformat的接口,用於描述輸

原创 關於pyspark 使用過程中需要python版本不同的需求

最近碰到了一個問題,挺有意思,是在使用spark過程中需要用到pyspark,而本地接口機的python版本太低,只有python 2.6版本,需求需要python 2.7版本甚至python 3版本。 但是在使用過程中不允許修改主機自帶

原创 關於xlearning的安裝使用初步簡介

最近發現了一個做事很認真的做算法同事,身上很多優點值得我學習,推薦使用了一種360的開源工具,可以將tensoeflow提交至yarn裏面。這個工具感覺解決了很多問題。我這個人比較懶,大部分工作都是我那個同事研究成功的,然後我坐享其成,等