原创 白話Flink

這是一部講解Flink的通俗教程,語言可能不夠優雅,但力爭講的明白,如果您在瀏覽的時候有什麼迷惑的地方,您可以大膽的提出issue,這樣我可以及時修改,但是您不要指望講解的有多麼深入,因爲這只是一個入門的Flink教程,不過我會盡

原创 word2vec以及GloVe總結

詞向量 詞向量,顧名思義,就是把一個單詞或詞語表示成一個向量的形式,這是因爲在計算機中無法直接處理自然語言,需要把它轉化爲機器能夠理解的語言,比如數值等。最簡單的方式是把一個個單詞表示成one-hot的形式。例如有三個句子: 我/

原创 使用pyspark進行機器學習(分類問題)

使用pyspark進行機器學習(聚類問題) 使用pyspark進行機器學習(迴歸問題) LogisticRegression class pyspark.ml.classification.LogisticRegression(

原创 使用pyspark進行機器學習(聚類問題)

使用pyspark進行機器學習(分類問題) 使用pyspark進行機器學習(迴歸問題) BisectingKMeans class pyspark.ml.clustering.BisectingKMeans(self, feat

原创 pyspark應用技巧

1. spark sdf和pandas pdf相互轉化 一般spark sdf轉化爲pandas pdf使用sdf.toPandas(), pdf轉化爲sdf使用spark.createDataFrame(pdf),但是直接轉化中

原创 pyspark RDD數據的讀取與保存

數據讀取 hadoopFile Parameters: path – path to Hadoop file inputFormatClass – fully qualified classname of Hadoop Inpu

原创 pyspark.linalg模塊學習

class pyspark.ml.linalg.Vector 方法 toArray(): 把vector轉換爲numpy.ndarray class pyspark.ml.linalg.DenseVector(ar) v = Ve

原创 使用sqlalchemy ORM創建表及數據的插入

1.載入庫 import datetime import pandas as pd import sqlalchemy from sqlalchemy import create_engine from sqlalchemy.sq

原创 spark streaming參數調優

應用spark streaming的時候,可以在spark UI頁面監控spark streaming的運行,UI頁面有一個Streaming選項卡,展示如下: 裏面有四個選項,分別是input rate,,scheduling

原创 pyspark streaming與Kafka的應用及offset的手動設置

spark streaming現在主要分爲兩個部分,一個是DStreams,另一個就是Structured Streaming,前一個是基於RDD進行編程,後一個是基於DataFrame或Dataset編程的。現在官方推薦的是使用

原创 神經網絡自然語言模型的一般化結構形式

一個神經網絡自然語言模型當然需要神經網絡的結構層次,但是在進入神經網絡之前,怎麼把單詞表示成要輸入的詞向量,這也是一個非常重要的問題。其實,神經網絡語言模型主要分兩大部分,第一,輸入詞向量的表示問題,第二,神經網絡結構的選擇問題。

原创 使用pyspark進行機器學習(迴歸問題)

使用pyspark進行機器學習(分類問題) 使用pyspark進行機器學習(聚類問題) DecisionTreeRegressor class pyspark.ml.regression.DecisionTreeRegresso

原创 基於轉換的神經網絡依存句法分析器

依存句法分析是自然語言處理中一個關鍵的問題,一是判斷給定的句子是否合乎語法,再是爲合乎語法的句子給出句法結構。爲了準確做出句子的依存關係,不少學者提出了一些方法,如基於圖的方法,基於轉換的方法等。 基於轉換的依存句法分析 Yama

原创 神經網絡機器翻譯總結

神經網絡機器翻譯(Neural Machine Translation, NMT)是最近幾年提出來的一種機器翻譯方法。相比於傳統的統計機器翻譯(SMT)而言,NMT能夠訓練一張能夠從一個序列映射到另一個序列的神經網絡,輸出的可以是

原创 SVM與Logistic迴歸的關係

合頁損失函數 [z]+={z,z>00,z≤0 SVM的目標函數 對於線性SVM,我們知道它的原始最優化問題爲: minw,b,ξ1/2||w||2+CΣNi=1ξis.t.yi(w⋅xi+b)≥1−ξi,i=1,2,...,N