原创 插入排序實現
public class Sort { public static void main(String[] args) { int[] arr = new int[]{8,6,15,45,12,36,25,
原创 hadoop join之map side join
在本例中,我們仍然採用上一例中的數據文件。之所以存在reduce side join,是因爲在map階段不能獲取所有需要的join字段,即:同一個key對應的字段可能位於不同map中。Reduce side join是非常低效的,因爲sh
原创 集羣環境下配置hadoop1.0,zookeeper,hbase
1.本環境採用兩臺linux環境,ip分別爲: 192.168.56.101 192.168.56.102 分別修改兩臺機器的/etc/hosts文件,增加如下內容: 192.168.56.101 master 192.168.56.10
原创 轉載兩篇關於RNN和LSTM的好文章
https://blog.csdn.net/qq_32241189/article/details/80461635https://blog.csdn.net/m0epnwstyk4/article/details/79124800
原创 簡述樸素貝葉斯計算步驟
計算步驟如下: 1.首先計算各個分類的概率; 2.然後計算預測數據的各個特徵在每個分類緯度下的概率; 3.按照分類緯度計算:分類概率*每個特徵概率; 4.選出步驟3中最大的結果即爲所求;
原创 win10安裝pytorch
1.安裝Anaconda 2.設置清華源鏡像 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda conf
原创 打開ipynb文件
1.安裝note book pip install jupyter notebook 2.進入到ipynb文件文件所在目錄,然後cmd中輸入: jupyter notebook 3.稍後瀏覽器會自動打開ipynb文件列表
原创 多元高斯分佈
轉載此處
原创 K-Means聚類算法的原理及實現
K-Means是聚類算法中的一種,其中K表示類別數,Means表示均值。顧名思義K-Means是一種通過均值對數據點進行聚類的算法。K-Means算法通過預先設定的K值及每個類別的初始質心對相似的數據點進行劃分。並通過劃分後的均值迭代優化
原创 jvm在線分析工具
分享三個實用的在線分析工具: http://www.fastthread.io/ http://gceasy.io/ http://heaphero.io/
原创 常用linux命令
jvm性能分析相關: 1.收集內存信息: jmap -dump:format=b,file=dump.bin pid 2.收集線程棧信息: jstack -l pid | tee jstack.txt 3.查看進程中的線程信息: top
原创 對IO的一點理解
在Linux操作系統層面,網絡操作即爲IO操作,總共有:阻塞式,非阻塞式,複用模型,信號驅動和異步五種IO模型。阻塞式IO操作請求發起以後,從網卡等待/讀取數據,內核/到用戶態的拷貝,整個IO過程中,用戶的線程都是處於阻塞狀態。非阻塞與阻
原创 搭建Spark服務器環境
一、spark服務器環境: 1.配置java環境; 2.下載spark包和對應版本的hadoop包; 3.進入spark安裝目錄,在conf目錄下spark-env.sh文件的最後加入環境變量: LD_LIBRARY_PATH=$HAD
原创 使用Maven生成Flink開發項目
mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVers