原创 Spark大數據分析-MLlib——線性迴歸實例

目錄分析和準備數據分析數據分佈分析列餘弦相似性計算協方差矩陣轉換爲LabeledPoint拆分數據特徵縮放和均值歸一化擬合和使用線性迴歸模型預測目標值評估模型的性能解釋模型參數加載和保存模型調整算法找到正確的步長和迭代次數添加高階

原创 Spark大數據分析-ML:分類和聚類(一)

目錄Spark ML庫Estimators、transformers和evaluatorsML參數ML管道邏輯迴歸二元邏輯迴歸模型準備數據以使用Spark中的邏輯迴歸處理缺失值處理類別值使用StringIndexer使用OneHo

原创 Spark大數據分析-Spark Streaming—— 外部數據源

目錄使用Kafka,修改流應用程序使用Spark kafka連接器向kafka寫入信息 官方Spark連接器存在以下外部系統和協議: (1)kafka:分佈式、快速、可擴展的發佈訂閱消息系統。 (2)Flume:分佈式、可靠的系統

原创 Spark大數據分析-Spark Streaming—— Spark Streaming應用程序(二)

目錄隨時保存計算狀態使用updateStateByKey跟蹤狀態使用union組合兩個DStreams指定檢查點目錄開始流上下文並檢查新的輸出使用mapWithState方法使用窗口操作進行限時計算使用窗口操作解決“在過去1h內找

原创 機器學習-初識機器學習

目錄什麼是機器學習機器學習定義機器學習的典型步驟機器學習算法的分類監督和無監督算法分類基於目標變量類型的算法分類 什麼是機器學習 機器學習定義 Arthur Samual(1959):在沒有明確設置的情況下,使計算機具有學習能力的

原创 Spark大數據分析-Spark Streaming—— Spark Streaming應用程序(一)

某些專業領域從實時數據分析中獲利,比如流量監控、在線廣告、股票市場交易等。這些案例需要可擴展的容錯系統來攝入數據並進行分析,Spark Streaming具有用於從Hadoop兼容的文件系統(如HDFS和S3)和分佈式系統(如Flume、

原创 TensorFlow2.0 - ImageDataGenerator

在圖像深度學習任務中,對於小數據集,可以通過Image Data Augmentation圖像增強技術來擴充數據。比如Keras的ImageDataGenerator。 ImageDataGenerator的使用: tf.keras.p

原创 Spark大數據分析-Spark SQL查詢(三)—— DataFrame的保存與加載

Spark內置支持多種文件格式和數據庫。包括JDBC、Hive、Json、ORC、Parquet、MySQL、PostgreSQL。 1、內置數據源 Spark支持的數據格式每個都有各自的優點,對於何時使用何種格式需要結合具體的場景,內置

原创 Spark大數據分析-Spark SQL查詢(二)——使用SQL命令

對於使用關係型數據庫或分佈式數據庫的用戶可能更容易和更自然地使用SQL,比如Hive。在Spark SQL編寫SQL命令時,它們將被轉換爲DataFrame上的操作。通過連接到Spark的Thrift服務器,它們可以通過標準的JDBC或O

原创 Spark大數據分析-Spark SQL查詢(一)——DataFrame

這篇文章的所有數據可以通過以下鏈接獲取 鏈接:https://pan.baidu.com/s/1-Vlo3S8tjMyM6E0kwGALwQ  提取碼:nlri DataFrame可處理結構化數據(按行和列組織的數據,其中每列僅包含特定類

原创 基於Docker部署FastDFS+Nginx,實現分佈式文件存儲和文件訪問的負載均衡

1、準備工作 1.1、準備基礎環境 先準備三個虛擬機來模擬集羣,它們的ip分別是192.168.36.132、192.168.36.133、192.168.36.134,宿主系統都是centos7,並且都安裝了帶有阿里雲鏡像加速的Dock

原创 Spark 大數據分析-MLlib,基本統計

目錄列統計彙總相關係數 MLlib Statistics 是統計模塊。包括:彙總統計、相關係數分析、分層抽樣、假設檢驗、隨機數據生成等。 列統計彙總 Statistics的colStats函數是列統計方法,該方法可以計算每列最大值

原创 Spark 分佈式計算調優方案-開發調優

目錄避免使用重複的RDD複用一個RDD持久化儘可能避免使用shuffle類算子使用預聚合的shuffle操作使用高性能的算子廣播大變量使用Kryo優化序列化優化數據結構 避免使用重複的RDD 在開發一個Spark作業時,首先基於某

原创 雲計算集羣——關於如何使用Docker部署微服務

目錄關於Docker的原理Docker-使用Aliyun源安裝使用Docker部署雲服務使用DockerFile構建鏡像使用docker-compose創建容器 關於Docker的原理 (未完待續) Docker-使用Aliyun

原创 Spark 分佈式計算調優方案-數據傾斜調優

目錄數據傾斜現象發生數據傾斜現象的原因定位發生數據傾斜的代碼解決方法 數據傾斜現象 絕大多數task執行得都非常快,但個別task執行極慢。比如,總共有1000個task,997個task都在1分鐘之內執行完了,但是剩餘兩三個ta