原创 大數據開發工程師 面試題

一  找實習時 一般是自我介紹,個人是介紹學校,畢業時間,專業,實習經歷,項目經歷,一般這時候會開始問你問題,否則接着介紹在校獲獎,有哪些社會實踐經驗. 本人一般用scala,但遇到比較多問Java的情況,建議多學習 java ,拓展技術

原创 大數據基礎知識點---hadoop生態圈

大數據基礎知識點: java List特點:元素有放入順序,元素可重複 ,Set特點:元素無放入順序,元素不可重複。 數據庫的三大範式:原子性、一致性、唯一性 對象和引用對象:對象就是好沒有初始化的對象,引用對象即使對這個對象進行了初始化

原创 驗證西刺代理ip有效性

# -*- coding: utf-8 -*- """ Created on Wed Nov  8 14:50:04 2017 @author: m

原创 KNN

KNN---最近鄰,k-NearestNeighbor使用場景:可迴歸,可分類,對於類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更爲適合。更有用的方法是將不同距離的鄰居對該樣本產生的影響給予不同的權值(weight),如權值

原创 spark運行架構 storm 流數據處理

回顧:spark編程模型幾個要素:driver program,輸入,transformation,action,緩存,共享變量 RDD :特性:分區,依賴,函數,分區策略(K,V),本地性策略 spark運行架構:

原创 hadoop生態圈 基礎知識點

java List特點:元素有放入順序,元素可重複 , Set特點:元素無放入順序,元素不可重複。 數據庫的三大範式:原子性、一致性、唯一性 對象和引用對象:對象就是好沒有初始化的對象,引用對象即使對這個對象進行了初始化 A

原创 Tensorflow fisrt example ------------- 實現手寫數字識別 無隱含層最淺的神經網絡

# -*- coding: utf-8 -*-"""Created on Tue Mar 13 14:59:24 2018@author: 10212

原创 scala 基礎知識點

數據類型 Byte 8位 short 16位 int 32位 Long 64位 Unit 無值(void) Null null 或空引用 Nothing 在Scala的類層級的最低端;任何其他類型

原创 簡單神經網絡的搭建

# -*- coding: utf-8 -*-"""Created on Wed Mar 14 09:50:13 2018@author: 102121"""from tensorflow.examples

原创 迴歸算法,線性迴歸,logistics

迴歸,又稱 多重回歸分析 :指研究一組隨機變量(Y1 ,Y2 ,…,Yi)和另一組(X1,X2,…,Xk)變量之間關係的統計分析方法 通常Y1,Y2,…,Yi是 因變量 ,X1、X2,…,Xk是 自變量 Regr

原创 馬爾可夫模型(Markov Model)

https://www.cnblogs.com/fengfenggirl/p/HMM_1.html 超通熟易懂及推理!!!!!!!!! 優點:該方法對過程的狀態預測效果良好,可考慮用於生產現場危險狀態的預測 缺點

原创 樸素貝葉斯

拉普拉斯平滑 樸素:特徵條件獨立 貝葉斯:基於貝葉斯定理 使用場景: 文檔分類,垃圾郵件分類 優點: 1.生成式模型,通過計算概率來進行分類,可以用來處

原创 PageRank

通過計算頁面鏈接的數量和質量來確定網站重要性的粗略估計。算法創立之初的目的是應用在Google的搜索引擎中,對網站進行排名。 **核心思想** PageRank是基於從許多優質的網頁鏈接過來的網頁,必定還是優質網頁的思想建

原创 elasticsearch(三)

DSL查詢(Domain Specific Language 領域特定語言) curl -XGET http://localhost:9200/bjsxt/employee/_search -d {“query”:{      

原创 Docker

一個開源的應用容器引擎,基於 Go 語言 並遵從Apache2.0協議開源。 docker可以讓開發者打包他們的應用以及依賴包到一個輕量級、可移植的容器中,然後發佈到任何流行的 Linux 機器上,也可以實現虛擬化。 容器是完