台部落sword

目錄分析和準備數據分析數據分佈分析列餘弦相似性計算協方差矩陣轉換爲LabeledPoint拆分數據特徵縮放和均值歸一化擬合和使用線性迴歸模型預測目標值評估模型的性能解釋模型參數加載和保存模型調整算法找到正確的步長和迭代次數添加高階

2020-06-16 13:35:57

目錄Spark ML庫Estimators、transformers和evaluatorsML參數ML管道邏輯迴歸二元邏輯迴歸模型準備數據以使用Spark中的邏輯迴歸處理缺失值處理類別值使用StringIndexer使用OneHo

2020-06-16 13:35:57

目錄使用Kafka，修改流應用程序使用Spark kafka連接器向kafka寫入信息官方Spark連接器存在以下外部系統和協議：（1）kafka：分佈式、快速、可擴展的發佈訂閱消息系統。（2）Flume：分佈式、可靠的系統

2020-06-01 03:20:11

目錄隨時保存計算狀態使用updateStateByKey跟蹤狀態使用union組合兩個DStreams指定檢查點目錄開始流上下文並檢查新的輸出使用mapWithState方法使用窗口操作進行限時計算使用窗口操作解決“在過去1h內找

2020-06-01 03:20:10

目錄什麼是機器學習機器學習定義機器學習的典型步驟機器學習算法的分類監督和無監督算法分類基於目標變量類型的算法分類什麼是機器學習機器學習定義 Arthur Samual（1959）：在沒有明確設置的情況下，使計算機具有學習能力的

2020-06-01 03:20:10

某些專業領域從實時數據分析中獲利，比如流量監控、在線廣告、股票市場交易等。這些案例需要可擴展的容錯系統來攝入數據並進行分析，Spark Streaming具有用於從Hadoop兼容的文件系統（如HDFS和S3）和分佈式系統（如Flume、

2020-05-24 11:09:40

在圖像深度學習任務中，對於小數據集，可以通過Image Data Augmentation圖像增強技術來擴充數據。比如Keras的ImageDataGenerator。 ImageDataGenerator的使用： tf.keras.p

2020-05-19 23:11:18

Spark內置支持多種文件格式和數據庫。包括JDBC、Hive、Json、ORC、Parquet、MySQL、PostgreSQL。 1、內置數據源 Spark支持的數據格式每個都有各自的優點，對於何時使用何種格式需要結合具體的場景，內置

2020-05-11 07:57:50

對於使用關係型數據庫或分佈式數據庫的用戶可能更容易和更自然地使用SQL，比如Hive。在Spark SQL編寫SQL命令時，它們將被轉換爲DataFrame上的操作。通過連接到Spark的Thrift服務器，它們可以通過標準的JDBC或O

2020-04-22 04:05:23

這篇文章的所有數據可以通過以下鏈接獲取鏈接：https://pan.baidu.com/s/1-Vlo3S8tjMyM6E0kwGALwQ 提取碼：nlri DataFrame可處理結構化數據（按行和列組織的數據，其中每列僅包含特定類

2020-04-15 07:03:05

1、準備工作 1.1、準備基礎環境先準備三個虛擬機來模擬集羣，它們的ip分別是192.168.36.132、192.168.36.133、192.168.36.134，宿主系統都是centos7，並且都安裝了帶有阿里雲鏡像加速的Dock

2020-04-15 07:03:05

目錄列統計彙總相關係數 MLlib Statistics 是統計模塊。包括：彙總統計、相關係數分析、分層抽樣、假設檢驗、隨機數據生成等。列統計彙總 Statistics的colStats函數是列統計方法，該方法可以計算每列最大值

2020-03-22 16:40:22

目錄避免使用重複的RDD複用一個RDD持久化儘可能避免使用shuffle類算子使用預聚合的shuffle操作使用高性能的算子廣播大變量使用Kryo優化序列化優化數據結構避免使用重複的RDD 在開發一個Spark作業時，首先基於某

2020-02-23 05:21:57

目錄關於Docker的原理Docker-使用Aliyun源安裝使用Docker部署雲服務使用DockerFile構建鏡像使用docker-compose創建容器關於Docker的原理（未完待續） Docker-使用Aliyun

2020-02-23 05:21:57

目錄數據傾斜現象發生數據傾斜現象的原因定位發生數據傾斜的代碼解決方法數據傾斜現象絕大多數task執行得都非常快，但個別task執行極慢。比如，總共有1000個task，997個task都在1分鐘之內執行完了，但是剩餘兩三個ta

2020-02-23 05:21:57