原创 CS224W筆記-第五課

CS224W筆記-第五課:頻譜聚類 上節課講到了如何進行社區發現或者檢測算法,而這節課會繼續這個話題,同時也會和第三課裏面的Motif的概念有聯繫。本節課主要關注的是和譜相關的聚類算法。 課程裏說的“頻譜”,按Jure的說法,就是

原创 CS224W筆記-第四課

其# 課程4——社區發現算法 在課程3裏面,介紹了網絡裏節點的角色,同時也說明了角色和社區的區別。本次課就主要是介紹網絡裏的社區的作用、性質以及社區發現的算法。 社區的作用 Jure用社會學裏的一個例子講述了網絡裏不同的路徑可能的

原创 CS224W筆記-第三課

課程3——圖的組成模塊和結構性質 課程三主要是講解了圖的組成部分的定義,這些部分的性質,以及由此產生的對圖的結構化的定性的影響。主要內容包括: 子圖(subgraph)及其性質; Motif及其性質,以及Configuratio

原创 CS224W筆記-第二課

第二課:網絡的特性和隨機圖模型 這是第一次正式的課,主要講以下幾個內容: 如何測量或衡量網絡/圖,即主要的metrics; 使用Jure對MSN網絡的研究,計算這幾個指標; 爲了比較MSN的網絡的特性是否是獨特的,構建了隨機網絡

原创 再寫博文,回顧在Windows7上安裝TensorFlow-GPU的一路坑

離完成上一篇文章有近1年了。2016年發生了太多的事情,從而沒能堅持哪怕是每月一篇這樣的頻率。終於在2017年的1月份抽出幾天搞出了一些東西。一路坑窪,趕緊記錄下來。 2016年初就開始看深度學習的東西,主攻TensorFlow。但是一路

原创 班門弄斧的寫統計-置信區間的自我總結

爲了進入數據科學家的行列,大把年紀又重新來看統計的東西。最近在面試和實際工作中發現,經常要去說置信區間的問題。這個統計學裏面的一個很常見但是非常基礎的概念,不少人(甚至我面的一個Cornell的統計碩士)都完全理解錯誤。所以這裏自己看了不

原创 如何在RedHat裏面編譯R源碼並安裝

爲了使用SparkR,決定要在Spark所在的Linux上裝上R,結果血淚篇了。主要原因是公司內部的虛機,無法連外網,所以網上很多的直接rpm或者yum的方法都沒用,需要自己編譯R的源碼,中間因爲Redhat Enterprise沒有給裝

原创 初學者入門-用Spark ML來處理超大數據

還是轉譯KDNuggets的文章。微軟的Dmitry Petrov介紹的如何用Spark ML來處理超過內存大小的數據。原文的 Link 這裏側重的是數據的大小遠遠超過單機的內存大小。原來這樣的分析都是要用分佈式的系統(比如hadoop)

原创 用Scala推薦的Eclipse作爲IDE開發Spark 1.5.1的程序

爲了配合另外一篇文章,自己折騰了一下把在Spark shell裏寫的程序弄到IDE裏面開發。搜了一遍,搞通了,自己寫一下筆記,已備後查。 Scala自己推薦的IDE有兩個,一個是iDEA,另外一個是Eclipse。iDEA要付費,所以沒

原创 自己的CSDN博文閱讀量簡單分析(至2016年1月)

早就計劃了這個題目。寫博有近一年了,零零散散的寫了一共15篇。期間也一直關注自己的文章被多少人看了一眼,真看還是假看就沒法知道了,閱讀量也終於達到了1000。發現還是有些有趣的事情可以簡單分析一下,也順便練練手。 先上一個表,後面的討論都

原创 hadoop集羣的搭建腳本及構思(一):用戶和用戶權限

打算搞一個複雜的Hadoop 2.6集羣,加上Zookeeper來搞HA,再部署上HBase,Hive等一系列的東西。發現機器多了,從建虛機到配置都不能再靠命令行一條一條的敲,需要搞腳本出來自動/半自動執行。 其實想想,這個部署的過程就是

原创 hadoop集羣的搭建腳本及構思(二):程序文件的管理思路

安裝了幾次hadoop系統後終於開始有了一點感覺,對程序文件的管理有了一點想法,這裏先記着。等搞完了再仔細地總結一下。 網絡上的基本教程都是從0開始,建用戶,建目錄,拷貝壓縮包,然後再解壓,再修改配置文件,再修改系統配置文件;然後從一個機

原创 hadoop集羣的搭建腳本及構思(N):一個簡化的Hadoop+Spark on Yarn集羣快速搭建

爲了一篇正在準備的用spark做文本分析的博文,快速搭建了一個4節點的Spark on Yarn+Hadoop的集羣。算是給這個系列的一點簡單小結。因爲資源的限制,HA的hadoop的集羣搭建還要在等一段時間才能來繼續了。 由於工作內容變

原创 兩個Mapper初始化輸出類錯誤的心得:Unable to initialize any output collector

今天在跑兩個關係運算的代碼,結果接連兩次都出現了同樣的一個錯誤: Error: java.io.IOException: Unable to initialize any output collector at org.apache.

原创 Hadoop 2.6 日誌文件和MapReduce的log文件研究心得

學習演練Hadoop 2.6有一段日子了。現在才大致搞清楚了系統裏面各個log的位置和功能,在這裏總結一下。網上的資料並不豐富,甚至Google出來的結果也不是很滿意,或許這個是太簡單了,牛人都不屑來寫。也可能是各個公司藏着掖着的東西。