原创 景點評論爬蟲之微博爬蟲和攜程爬蟲

最近幫同學寫了個爬蟲,爬取微博上景點評論以及攜程上景點評論.下面都是以景點夫子廟爲例 微博爬蟲 在微博搜索夫子廟關鍵詞,然後得到網頁鏈接,我們用審查元素分析,應該是ajax模式,於是得到它的請求頭,分析它的參數,應該就是隻有一個page變

原创 最大子數組問題之Python和C++實現

最大子數組問題 1.背景 《算法導論》中是通過股票的購買與出售,經過問題轉換,將前一天的當天的股票差價重新表示出來,即轉爲了一個最大子數組的問題,相當於就是尋找一個數組的和最大的非空連續子數組 如 13, -3, -25, 20, -3,

原创 spark ML BinaryClassificationEvaluator和MulticlassClassificationEvaluator一些總結

最近在用spark做隨機森林分析, 數據是二分類的, 在做的過程中遇到了一些問題,記錄一下.    注: 本文是在spark2.4.5版本, java語言, 用的是spark ML , 非spark MLlib. 在用StringInde

原创 VCF文件中QUAL和GQ的區別

最近開始分析vcf文件, 於是去搜了相關VCF格式解讀的博客. 大部分關於這兩個指標的解讀如下,都是描述質量值的,但也沒說具體啥區別. QUAL:Phred格式(Phred_scaled)的質量值,表示在該位點存在variant的可能性;

原创 基金漲幅監控之python爬蟲

年後被朋友帶入基金的坑,天天說暴漲,各種牛市。於是小白的我就入坑了,稀裏糊塗的買了幾個。結果還沒上車兩天,突然暴跌,內心慘痛。每天在支付寶裏面點擊各個基金看當日漲幅感覺太繁瑣,於是用python寫了個腳本,這樣方便看下。當然還是不看的好,

原创 算法導論快速排序之python和c++實現

1.快速排序 快速排序是一種比較快的排序算法,其主要思想是: 具體思想不再贅述。下面給出具體代碼實現。 2.python3實現 #quick sort #python3 #Yanglin Tu def partition(arr,

原创 歸併排序之Python3實現和c++實現

歸併排序(Merge sort) 1.排序思想 歸併排序(MERGE-SORT)是建立在歸併操作上的一種有效的排序算法,該算法是採用分治法(Divide and Conquer)的一個非常典型的應用。將已有序的子序列合併,得到完全有序的序

原创 冒泡排序之Python實現和C++實現

冒泡排序(Bubble sort)  1.排序思想: 冒泡排序的基本思想就是:從無序序列頭部開始,進行兩兩比較,根據大小交換位置,直到最後將最大(小)的數據元素交換到了無序隊列的隊尾,從而成爲有序序列的一部分;下一次繼續這個過程,直到所有

原创 插入排序之Python3實現和c++實現

插入排序(Insert sort) 1.排序思想 設有一組關鍵字{K1, K2,…, Kn};排序開始就認爲 K1 是一個有序序列;讓 K2 插入上述表長爲 1 的有序序列,使之成爲一個表長爲 2 的有序序列;然後讓 K3 插入上述表長爲

原创 strassen算法之Python實現

strassen算法 strassen算法是矩陣相乘的算法,這個算法降低了時間複雜度,通常暴力破解法的時間複雜度爲O(),這種方法的時間爲O() Python3實現 #strassen.py #python3 #Yanglin Tu

原创 感知機學習算法之Python實現

感知機學習算法的Python實現 training_set = [[(3, 3), 1], [(4, 3), 1], [(1, 1), -1]] w = [0, 0] b = 0 def cal_y(x): global w

原创 堆排序之Python和C++實現

堆排序 1.思想 堆排序(Heapsort)是指利用堆積樹(堆)這種數據結構所設計的一種排序算法,它是選擇排序的一種。可以利用數組的特點快速定位指定索引的元素。堆分爲大根堆和小根堆,是完全二叉樹。大根堆的要求是每個節點的值都不大於其父節點

原创 樸素貝葉斯算法之python實現 統計學習方法例4.2實戰

轉自:https://blog.csdn.net/GrinAndBearIt/article/details/79045143  侵刪  本人在自學李航老師的統計學習方法,在學習樸素貝葉斯章節時,其中概念非常好理解,但是準備想把課本中的例