台部落infovisthinker

CS224W筆記-第五課：頻譜聚類上節課講到了如何進行社區發現或者檢測算法，而這節課會繼續這個話題，同時也會和第三課裏面的Motif的概念有聯繫。本節課主要關注的是和譜相關的聚類算法。課程裏說的“頻譜”，按Jure的說法，就是

2020-05-19 22:17:09

其# 課程4——社區發現算法在課程3裏面，介紹了網絡裏節點的角色，同時也說明了角色和社區的區別。本次課就主要是介紹網絡裏的社區的作用、性質以及社區發現的算法。社區的作用 Jure用社會學裏的一個例子講述了網絡裏不同的路徑可能的

2020-04-12 05:38:56

課程3——圖的組成模塊和結構性質課程三主要是講解了圖的組成部分的定義，這些部分的性質，以及由此產生的對圖的結構化的定性的影響。主要內容包括：子圖(subgraph)及其性質； Motif及其性質，以及Configuratio

2020-03-08 22:13:07

第二課:網絡的特性和隨機圖模型這是第一次正式的課,主要講以下幾個內容: 如何測量或衡量網絡/圖,即主要的metrics; 使用Jure對MSN網絡的研究,計算這幾個指標; 爲了比較MSN的網絡的特性是否是獨特的,構建了隨機網絡

2020-02-26 12:05:41

離完成上一篇文章有近1年了。2016年發生了太多的事情，從而沒能堅持哪怕是每月一篇這樣的頻率。終於在2017年的1月份抽出幾天搞出了一些東西。一路坑窪，趕緊記錄下來。 2016年初就開始看深度學習的東西，主攻TensorFlow。但是一路

2018-08-22 14:56:24

爲了進入數據科學家的行列，大把年紀又重新來看統計的東西。最近在面試和實際工作中發現，經常要去說置信區間的問題。這個統計學裏面的一個很常見但是非常基礎的概念，不少人（甚至我面的一個Cornell的統計碩士）都完全理解錯誤。所以這裏自己看了不

2018-08-22 14:56:24

爲了使用SparkR，決定要在Spark所在的Linux上裝上R，結果血淚篇了。主要原因是公司內部的虛機，無法連外網，所以網上很多的直接rpm或者yum的方法都沒用，需要自己編譯R的源碼，中間因爲Redhat Enterprise沒有給裝

2018-08-22 14:56:24

還是轉譯KDNuggets的文章。微軟的Dmitry Petrov介紹的如何用Spark ML來處理超過內存大小的數據。原文的 Link 這裏側重的是數據的大小遠遠超過單機的內存大小。原來這樣的分析都是要用分佈式的系統（比如hadoop）

2018-08-22 14:56:24

爲了配合另外一篇文章，自己折騰了一下把在Spark shell裏寫的程序弄到IDE裏面開發。搜了一遍，搞通了，自己寫一下筆記，已備後查。 Scala自己推薦的IDE有兩個，一個是iDEA，另外一個是Eclipse。iDEA要付費，所以沒

2018-08-22 14:56:24

早就計劃了這個題目。寫博有近一年了，零零散散的寫了一共15篇。期間也一直關注自己的文章被多少人看了一眼，真看還是假看就沒法知道了，閱讀量也終於達到了1000。發現還是有些有趣的事情可以簡單分析一下，也順便練練手。先上一個表，後面的討論都

2018-08-22 14:56:24

打算搞一個複雜的Hadoop 2.6集羣，加上Zookeeper來搞HA，再部署上HBase，Hive等一系列的東西。發現機器多了，從建虛機到配置都不能再靠命令行一條一條的敲，需要搞腳本出來自動/半自動執行。其實想想，這個部署的過程就是

2018-08-22 14:56:23

安裝了幾次hadoop系統後終於開始有了一點感覺，對程序文件的管理有了一點想法，這裏先記着。等搞完了再仔細地總結一下。網絡上的基本教程都是從0開始，建用戶，建目錄，拷貝壓縮包，然後再解壓，再修改配置文件，再修改系統配置文件；然後從一個機

2018-08-22 14:56:23

爲了一篇正在準備的用spark做文本分析的博文，快速搭建了一個4節點的Spark on Yarn+Hadoop的集羣。算是給這個系列的一點簡單小結。因爲資源的限制，HA的hadoop的集羣搭建還要在等一段時間才能來繼續了。由於工作內容變

2018-08-22 14:56:23

今天在跑兩個關係運算的代碼，結果接連兩次都出現了同樣的一個錯誤： Error: java.io.IOException: Unable to initialize any output collector at org.apache.

2018-08-22 14:56:23

學習演練Hadoop 2.6有一段日子了。現在才大致搞清楚了系統裏面各個log的位置和功能，在這裏總結一下。網上的資料並不豐富，甚至Google出來的結果也不是很滿意，或許這個是太簡單了，牛人都不屑來寫。也可能是各個公司藏着掖着的東西。

2018-08-22 14:56:23