原创 spark調優

mark一下,轉自美團技術點評的2篇博文 前言 在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不

原创 maven整理

一、pom.xml  <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instan

原创 MLP,MAP,貝葉斯估計在NLP中參數估計

以PLSA和LDA爲代表的文本語言模型是當今統計自然語言處理研究的熱點問題。這類語言模型一般都是對文本的生成過程提出自己的概率圖模型,然後利用觀察到的語料數據對模型參數做估計。有了語言模型和相應的模型參數,我們可以有很多重要的應用,比如文

原创 Spark存儲與讀取文件方法小結

http://blog.csdn.net/buring_/article/details/42424477   mark 一:Spark中常常面臨這RDD的存儲問題,記錄一下常常面臨的幾種情況。saveAsObjectFile, Sequ

原创 shell中各種括號()、(())、[]、[[]]、{}的作用

mark一下,轉自:http://blog.csdn.net/ztf312/article/details/52317571 技巧小結: 字符串比較用雙中括號[[ ]];算數比較用單中括號[ ]——左右留空格 算數運算用雙小括號

原创 python 理解閉包

1. 函數 在 Python 中,使用關鍵字 def 和一個函數名以及一個可選的參數列表來定義函數。函數使用 return 關鍵字來返回值。定義和使用一個最簡單的函數例子: Python

原创 Hadoop中的文件格式

http://blog.csdn.net/bingduanlbd/article/details/52088520  mark 一下,原先看過,再複習。 Hadoop中的文件格式大致上分爲面向行和麪向列兩類: 面向行:同一行的

原创 spark加載外部資源方式

首選說明spark加載文件: 1、採用 Source. fromFile (LocalPath)方式加載,可加載本地文件,這裏本地文件指的是非集羣方式 2、加載hdfs,sc.textfile() 3、採用 sc.textFile(“fi