原创 打工人的小心思(持續記錄)

2021年最大的感受是覺悟:覺悟到工作是人生的大部分內容,所以要認真對待。會主動加班,思索怎麼爲團隊做的更好,自己的提升方向在哪。 新進入一家公司的時候,不會的要儘快去問。我剛工作的時候會覺得老去問很不好意思,但是如果不去問,過了一段時間

原创 manim安裝指南

manim:用於數學繪圖(動畫),比如數學教程。 首先,建議大家去github按官方的安裝。 github-manim 下面提供我安裝的過程(win10-64),儘量詳細點哈。 安裝ffmpeg 地址:FFmpeg 直接下載壓縮包,解壓

原创 C++指針常量與常量指針

指針常量:指針本身是常量,指針的值不能改變 常量指針:指針指向的值是“常量”(打引號表示的是不能通過指針改變指向的值,這個層面的常量,不一定要真的指向常量) 上代碼和註釋: #include<iostream> using namespac

原创 放不下的焦慮

明明知道焦慮沒用,急起來反而效率低,但是總是不自覺的焦慮。真正落後別人的,是時間,年級大了,意味着進入某個階段,比如上有老下有小,但是如果沒有提前準備好,這一進去就是無底洞。現在的我就是如此,馬上30歲了,以前浪費的時光,現在缺少的工作經驗

原创 二八定律的思考

最近工作內容雜亂不堪,按順序去做總是被卡在各種地方,於是便有這二八定律的必要了。二八定律:20%的時間,做80%的事情。不管是生活中還是工作中,這都是很好的原則,尤其是待選項太多的時候,一定要先定義出80%的必做事情,且能在20%的時間內完

原创 pyspark 文本主題模型LDA

LDA:隱狄利克雷分配,常用於文本主題模型(主題分類、聚類)。注意LDA也是線性判別分析的縮寫 參考一篇文章:https://zhuanlan.zhihu.com/p/31470216 from pyspark.ml.clustering

原创 pyspark 保序迴歸

保序迴歸 也稱單調回歸。按百度定義:保序迴歸在觀念上是尋找一組非遞減的片段連續線性函數(piecewise linear continuous functions),即保序函數,使其與樣本儘可能的接近。 在計算中,保序迴歸是一個二次規劃問題

原创 pyspark線性SVC

from pyspark.ml.classification import LinearSVC from pyspark.sql import SparkSession spark = SparkSession\ .builder

原创 pyspark線性迴歸(彈性網)

沒什麼好解釋的,上代碼 from pyspark.ml.regression import LinearRegression from pyspark.sql import SparkSession spark = SparkSessio

原创 邏輯迴歸與最大熵模型

本文爲《統計學習方法》第6章筆記。 概論 邏輯迴歸與最大熵模型都屬於對數線性模型,邏輯迴歸求解似然函數的極大值,得到參數w,最大熵模型先轉對偶問題,求得條件概率模型,也是通過極大值求解得到w。涉及到最優化算法的部分都比較晦澀,由於本人理解得

原创 時間序列分析及預測

本文是《商務與經濟統計》一書的筆記。 時間序列的模式 水平模式 數據圍繞一個不變的均值上下波動 平穩時間序列定義:數據有一個不變的均值;時間序列的變異性隨時間推移不變 趨勢模式 在一段較長的時間內,發生逐步的改變。按通常理解,就是整體上的一

原创 pyspark向量裝配與笛卡爾積

向量裝配VectorAssembler:對每一行,將多個列的元素組成一個向量 笛卡爾積Interaction:這個也不知道怎麼翻譯好,先對集合做笛卡爾積,然後對每個元組結果做累乘,得到一個元素爲向量的列 from pyspark.ml.fe

原创 pyspark 元素級乘法ElementwiseProduct

from pyspark.ml.feature import ElementwiseProduct from pyspark.ml.linalg import Vectors from pyspark.sql import SparkSe

原创 pyspark特徵哈希化

from pyspark.sql import SparkSession from pyspark.ml.feature import FeatureHasher spark = SparkSession\ .builder\

原创 pyspark實現FPGrowth(關聯規則)

FP:Frequent Pattern 相對於Apriori算法,頻繁模式樹(Frequent Pattern Tree, FPTree)的數據結構更加高效 Apriori原理:如果某個項集是頻繁的,那麼它的所有子集也是頻繁的。反過來,如果