原创 Spark學習筆記(RDD編程基礎)

1. RDD創建  spark core 從文件讀取  >>> lines = sc.textFile("file:///user/data_path") # local Scala> val lines = sc.textFile("

原创 Spark學習筆記(基本概念與環境部署)

21/08/2019 10.Spark概述 spark速度快的原因 1.內存計算 2.有向無環圖 通用性很強: 以前需要1.SQL查詢:spark SQL實現                2.流式計算:spark stremming 實

原创 Python Practice

1. Lamda # Create a list of strings: spells spells = ["protego", "accio", "expecto patronum", "legilimens"] # Use map(

原创 NLP 基礎

1. re模塊 1.將正則表達式的字符串形式編譯爲Pattern實例 2.使用Pattern實例處理文本並獲得匹配結果(一個Match實例) 3.使用Match實例獲得信息,進行其他的操作。 import re # 將正則表達式編譯

原创 leetcode刷題筆記(LinkedList相關)

206. Reverse Linked List Reverse a singly linked list. Example: Input: 1->2->3->4->5->NULL Output: 5->4->3->2->1->NULL

原创 leetcode刷題筆記(Tree相關)

104. Maximum Depth of Binary Tree Given a binary tree, find its maximum depth. The maximum depth is the number of nodes

原创 SQL學習

2020/04/04 IN/LIKE Where column_name IN (value1,value2) Like 中的%類似於正則表達式中的* _匹配任意單個字符 like如果沒有%和_,就相當於 = 的效果 case when

原创 MS

Project 1.AML 有label的: - down sampling /xgboost/Hql 無label的: -  Autoencoder 2.CRANE:  改正features / add new features

原创 Pyspark 常用命令

1. read files # define schema from pyspark.sql.types import StructType,StructField from pyspark.sql.types import Doubl

原创 Spark學習筆記(Structure Streaming)

相當於在舊的dataframe上並上新的數據 微批處理:先寫入日誌 持續處理:異步處理   操作步驟 # 1.導入pyspark模塊 From pyspark.sql import SparkSession From pyspark.s

原创 Spark SQL

Hive 原理 把SQL 轉化成底層的MapReduce結構   RDD只能看見對象看不見對象中的內容; dataframe可以看見內容 SparkSession支持從不同的數據源加載數據 並把數據轉換爲dataframe支持把dataf

原创 Spark MLib的使用

Spark MLib Intro  MapReduce 不適合做機器學習-> 反覆讀寫磁盤的開銷/不適合機器學習需要的大量迭代計算。 MLib中只包含能夠在集羣上運行良好的並行算法,有些算法不能並行執行,所以無法包含在MLib中。 pa

原创 python基礎

變量:1.無需聲明 2. 變量類型動態改變 0b01001(二進制)   0o344(八進制)  0xaf(十六進制) 字符串 含有引號:1. 用\轉義 2. 用不同引號括起來 字符串拼接:數值先用str()/repr()轉換,用”+“拼

原创 python算法與數據結構學習筆記

排序算法 1. 冒泡排序 冒泡排序,從左到右,分別比較兩個相鄰數字的大小,如果後面一個數小於前面的數就進行交換。 def bubble_sort(seq): l = len(seq) for i in range(l-1

原创 Leetcode刷題筆記(python3版)

EASY LEVEL: 1108. Defanging an IP Address 題目:Given a valid (IPv4) IP address, return a defanged version of that IP addr