原创 LeetCode44. 通配符匹配(python,動態規劃) 通用解法

1. 題目 給定一個字符串 (s) 和一個字符模式 ( p ) ,實現一個支持 ‘?’ 和 ‘*’ 的通配符匹配。 ‘?’ 可以匹配任何單個字符。 ‘*’ 可以匹配任意字符串(包括空字符串)。 兩個字符串完全匹配纔算匹配成功。 說

原创 LeetCode718. 最長重複子數組(python)

1. 問題 給兩個整數數組 A 和 B ,返回兩個數組中公共的、長度最長的子數組的長度。 示例 1: 輸入: A: [1,2,3,2,1] B: [3,2,1,4,7] 輸出: 3 解釋: 長度最長的公共子數組是 [3, 2,

原创 pySpark DataFrame簡介

1. 列名類型 pyspark.sql.types module DataType NullType StringType BinaryType BooleanType DateType TimestampType Decimal

原创 Spark實現xgboost多分類(python)

1. spark-xgboost Java包 主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及 調用代碼 sparkxgb.zip. GitHub上面有xgboost jav

原创 LeetCode123. 買賣股票的最佳時機 III(python,動態規劃)

1. 題目 給定一個數組,它的第 i 個元素是一支給定的股票在第 i 天的價格。 設計一個算法來計算你所能獲取的最大利潤。你最多可以完成 兩筆 交易。 注意: 你不能同時參與多筆交易(你必須在再次購買前出售掉之前的股票)。 示例

原创 LeetCode面試題 08.01. 三步問題(簡單,動態規劃,python)

1. 題目 三步問題。有個小孩正在上樓梯,樓梯有n階臺階,小孩一次可以上1階、2階或3階。實現一種方法,計算小孩有多少種上樓梯的方式。結果可能很大,你需要對結果模1000000007。 示例1: 輸入:n = 3 輸出:4

原创 pyspark sql數據類型

1. pyspark數據類型 “DataType”, “NullType”, “StringType”, “BinaryType”, “BooleanType”, “DateType”, “TimestampType”, “Dec

原创 pandas dataframe中iloc和loc的區別

1. iloc iloc主要定位的是相對位置,如kFold這種都是這種相對索引進行split。 2. loc loc定位的是dataframe 本身的index。 示例: a = pd.DataFrame({"f1":[11,22

原创 spark DataFrame類型(pyspark)

json讀取爲dataframe sc = spark.sparkContext # A JSON dataset is pointed to by path. # The path can be either a single

原创 Hadoop初入門(4) 分佈式文件系統:架構和設計

Namenode 和 Datanode HDFS採用master/slave架構。一個HDFS集羣是由一個Namenode和一定數目的Datanodes組成。Namenode是一箇中心服務器,負責管理文件系統的名字空間(names

原创 hadoop初入門(3)

1. 執行命令 將輸入文件拷貝到分佈式文件系統: $ bin/hadoop fs -put conf input $ bin/hadoop fs -get output output $ cat output/* 在分佈式文件

原创 Leetcode680. 驗證迴文字符串 Ⅱ(python,遞歸)

1. 題目 給定一個非空字符串 s,最多刪除一個字符。判斷是否能成爲迴文字符串。 示例 1: 輸入: "abca" 輸出: True 解釋: 你可以刪除c字符。 注意: 字符串只包含從 a-z 的小寫字母。字符串的最大長度是50

原创 淺談DeepWalk

1. 簡介 通過隨機遊走獲得序列,然後word2vec向量化。 算法: 在定義好圖,比如,把user 和 item 進行邊連接,從一個 user出發,可以獲得很多個與該user相關的其他item,然後作爲一個序列。最終用word

原创 LeetCode560. 和爲K的子數組

1. 題目 給定一個整數數組和一個整數 k,你需要找到該數組中和爲 k 的連續的子數組的個數。 示例 1 : 輸入:nums = [1,1,1], k = 2 輸出: 2 , [1,1] 與 [1,1] 爲兩種不同的情況。 說明

原创 Gensim簡介及word2vec API

1. 簡介 Gensim是一款開源的第三方Python工具包,用於從原始的非結構化的文本中,無監督地學習到文本隱層的主題向量表達。 它支持包括TF-IDF,LSA,LDA,和word2vec在內的多種主題模型算法。 2. word