原创 python中的yield和return的區別
python中的yield和return的區別 return返回的是一個list列表,而yield每次調用只返回一個數值,毫無疑問,使用return空間開銷比較大,尤其是操作巨量數據的
原创 java中字符串拼接方式
java中字符串拼接方式 由於String對象時不可變對象,因此在需要對字符串進行修改操作時(如字符串連接和替換),String對象總是會生成新的對象,所以
原创 Java中的abstract方法和abstract類
Java中的abstract方法和abstract類 abstract修飾符用來修飾類和成員方法 1:用abstract修飾的類表示抽象類,抽象類位於繼承樹的抽象層,抽象類不能被實例化。 2
原创 pysparksql_標記異常值_提取異常值_approxQuantile
pysparksql_標記異常值_提取異常值_approxQuantile sparksql_標記異常值_提取異常值 用 .approxQuantile(…) 方法計算四分位數 df_outliers = s
原创 利用python實現漢字轉拼音的2種方法
python實現漢字轉拼音的2種方法 在瀏覽博客時,偶然看到了用python將漢字轉爲拼音的第三方包,但是在實現的過程中發現一些參數已經更新,現在將兩種方法記錄一下。 xpinyin
原创 pyspark dataframe生成一列常量數組
pyspark dataframe生成一列常量數組 >>> from pyspark.sql.types import * >>> from pyspark.sql.functions import
原创 Explode in PySpark
Explode in PySpark 有時要將dataframe中的一列變成多列: df = sqlContext.createDataFrame(
原创 python2.7 的中文編碼處理,解決UnicodeEncodeError: 'ascii' codec can't encode character 問題
python2.7 的中文編碼處理 最近業務中需要用 Python 寫一些腳本。儘管腳本的交互只是命令行 + 日誌輸出,但是爲了讓界面友好些,我還是決定用中文輸出日誌
原创 Shebang Line
Shebang Line Shebang Line 是什麼: 也被叫做 Hashbang Line,只要是一個由,井號和歎號#!開頭,
原创 Convert Pyspark dataframe to dictionary
Convert Pyspark dataframe to dictionary input: Col0, Col1 ----------- A153534,BDBM40705 R440060,BD
原创 推薦-基於bandit的主題冷啓動在線學習策略
推薦-基於bandit的主題冷啓動在線學習策略 推薦系統裏面有兩個經典問題:EE問題和冷啓動問題。 什麼是EE問題?又叫exploit-explore問題。exploit就是:對用戶比較確定的興趣,當然
原创 Java-Double轉String, 去掉0結尾的小數位
Java-Double轉String, 去掉0結尾的小數位 小問題:double值的小數位是0時,轉String會有“.0”結尾。比如,double值是“12”,轉String得到的字符串是“12.0
原创 【shell】shuf命令提取文件的隨機行
【shell】shuf命令提取文件的隨機行 shuf命令可以隨機提取一個文本文件的不同行,輸出到文件或者標準輸出中。 shuf 用法: shuf [選項]... [文件] 或者: shuf
原创 python中判斷NULL
python中判斷NULL 在python中是沒有NULL的,取而代之的是None,它的含義是爲空,但要注意和空列表與空字符串的區別,None的類型是Nonetype [p
原创 Mac上iterm2分屏切換
Mac上iterm2分屏切換 command + t:新建窗口 command + d:垂直分屏, command + shift + d:水平分屏。 c