原创 scala學習計算開始基本語法1-從今天開始更新

1環境: window linux 我的機子的系統ubonto不能用了,就是用window的eclipse for scala來學習。http://scala-ide.org/ 環境就不說了。linux上可以使用交互命令行

原创 阿里雲掛載硬盤

阿里雲掛載硬盤 掛載硬盤有三步 1)對磁盤格式化 2)格式化之後硬盤掛載到需要的掛載點 3)最後需要添加分區啓動表,下次系統啓動時自動硬盤掛載 圖文教程如下 1),查看數據盤在沒有分區和格式化數據盤之前,使用df -lh是

原创 Hive Hbase Integration(hive和habse的集成)

本文檔翻譯自官網網址 hive hbase integration 先介紹下版本信息: hive0.9.0至少需要hbase0.92版本以上。更早的hive版本需要hbase0.89/0.90 hive1.x將與hbase

原创 基於Spark的Als算法+自迭代+Spark2.0新寫法

主要介紹了一下幾點: 1矩陣分解的幾種算法 2spark使用矩陣分解的幾種方式,1ml 包中使用,2mllib包中的使用,其實有不調用包自己寫的案列(可以去看看哈,就在example目錄) 3使用ALS做推薦的一個比較詳細的流程:1

原创 jenkins+svn+maven+tomcat一鍵構建部署

1背景 這是這種多人協同開發,自動構建,自動部署的方案。就不用自己打包,然後上傳部署了,解放人力,便於管理。這裏只是簡單介紹各自軟件的使用與集成,其實不論svn和maven還有很多實用的用法,svn的管理規劃,maven的倉庫等。 s

原创 SSO的一種方案

今天分享一個解決web開發中的SSO的一種方案。 1背景 技術: java,redis,spring,spring mvc,jackson,httpclient,mybatis,mysql。 這裏主要以後臺服務的概念來實現,這要求前

原创 基於Spark的FPGrowth(關聯規則算法)

在推薦中,關聯規則推薦使用的比較頻繁,畢竟是通過概率來預測的,易於理解且準確度比較高,不過有一個缺點爲,想要覆蓋推薦物品的數量,就要降低支持度與置信度。過高的支持度與置信度會導致物品覆蓋不過,這裏需要其他的推薦方法合作,建議使用基於Spa

原创 spark基於用戶的協同過濾算法與坑點,提交job

承接上文: http://blog.csdn.net/wangqi880/article/details/52875524 對了,每臺機子的防火牆要關閉哈,不然spark集羣啓動不起來 前一次,已經把spark的分佈式集羣佈置好了,

原创 今天來學習下美團推薦算法實踐:機器學習重排序模型

轉載,來自小象學院。 美團推薦算法實踐:機器學習重排序模型 文章介紹了美團推薦系統的構架和優化過程,包括數據層,觸發層,融合過濾層和排序層,採用了Hbase,Hive,Storm,Spark和機器學習等技術。兩個優化兩點將是候選集進行

原创 kryo的速度測試

1背景介紹 這裏主要想測試一些spark的優化方式之一的kryo。場景爲通過數1000w的數據,通過日期分組,求一個點擊字段的sum。使用了kryo和沒使用kryo的時間對比。這裏由於環境限制,主要是使用到了kryo在各個機器之間的傳輸

原创 快速理解bootstrap,bagging,boosting-三個概念

1 booststraping:意思是依靠你自己的資源,稱爲自助法,它是一種有放回的抽樣方法,它是非參數統計中一種重要的估計統計量方差進而進行區間估計的統計方法。 其核心思想和基本步驟如下: (1)採用重抽樣技術從原始樣本中抽取一定數量(

原创 百分點蘇海波-用戶畫像的構建與使用1

轉載 百分點是一個推薦服務的提供商,但是已經轉型爲大數據解決方案的提供商。 首先看一下大數據與應用畫像的關係,現在大數據是炙手可熱的,大數據的4個V都比較瞭解,大數據應該說是信息技術的自然延伸,意味的無所不在的數據。我們先看下數據

原创 微信小程序的部署

部署環境: jdk1.7 mysql5.6 tomcat7 centos6.5 1資料準備 1)linux服務器,推薦使用阿里雲,這裏預算有限,所以使用了香港的低配服務器。 2)域名,這裏是在阿里雲平臺上申請的,沒有申請到c

原创 HiveServer2的客戶端

本文翻譯自hive官網 https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients 前面的我都用過的,但是從kerberos認證之後,我就沒使用過了。如果感

原创 Spark的邏輯迴歸與P_R_F評估

Spark的邏輯迴歸與P_R_F評估 1邏輯迴歸 可以使用預測2分類的場景,必須使用已經有分類的樣本,然後經過訓練,預測未分類的樣本的Lable,輸出是概率,表示一般爲正的概率是好多。 輸入: libsvn數據 樣本如下: samp