原创 插入排序實現

public class Sort { public static void main(String[] args) { int[] arr = new int[]{8,6,15,45,12,36,25,

原创 hadoop join之map side join

在本例中,我們仍然採用上一例中的數據文件。之所以存在reduce side join,是因爲在map階段不能獲取所有需要的join字段,即:同一個key對應的字段可能位於不同map中。Reduce side join是非常低效的,因爲sh

原创 集羣環境下配置hadoop1.0,zookeeper,hbase

1.本環境採用兩臺linux環境,ip分別爲: 192.168.56.101 192.168.56.102 分別修改兩臺機器的/etc/hosts文件,增加如下內容: 192.168.56.101 master 192.168.56.10

原创 轉載兩篇關於RNN和LSTM的好文章

https://blog.csdn.net/qq_32241189/article/details/80461635https://blog.csdn.net/m0epnwstyk4/article/details/79124800

原创 簡述樸素貝葉斯計算步驟

計算步驟如下: 1.首先計算各個分類的概率; 2.然後計算預測數據的各個特徵在每個分類緯度下的概率; 3.按照分類緯度計算:分類概率*每個特徵概率; 4.選出步驟3中最大的結果即爲所求;

原创 win10安裝pytorch

1.安裝Anaconda 2.設置清華源鏡像 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda conf

原创 打開ipynb文件

1.安裝note book pip install jupyter notebook 2.進入到ipynb文件文件所在目錄,然後cmd中輸入: jupyter notebook 3.稍後瀏覽器會自動打開ipynb文件列表

原创 多元高斯分佈

轉載此處

原创 K-Means聚類算法的原理及實現

K-Means是聚類算法中的一種,其中K表示類別數,Means表示均值。顧名思義K-Means是一種通過均值對數據點進行聚類的算法。K-Means算法通過預先設定的K值及每個類別的初始質心對相似的數據點進行劃分。並通過劃分後的均值迭代優化

原创 jvm在線分析工具

分享三個實用的在線分析工具: http://www.fastthread.io/ http://gceasy.io/ http://heaphero.io/

原创 常用linux命令

jvm性能分析相關: 1.收集內存信息: jmap -dump:format=b,file=dump.bin pid 2.收集線程棧信息: jstack -l pid | tee jstack.txt 3.查看進程中的線程信息: top

原创 對IO的一點理解

在Linux操作系統層面,網絡操作即爲IO操作,總共有:阻塞式,非阻塞式,複用模型,信號驅動和異步五種IO模型。阻塞式IO操作請求發起以後,從網卡等待/讀取數據,內核/到用戶態的拷貝,整個IO過程中,用戶的線程都是處於阻塞狀態。非阻塞與阻

原创 搭建Spark服務器環境

一、spark服務器環境: 1.配置java環境; 2.下載spark包和對應版本的hadoop包; 3.進入spark安裝目錄,在conf目錄下spark-env.sh文件的最後加入環境變量: LD_LIBRARY_PATH=$HAD

原创 使用Maven生成Flink開發項目

mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVers