原创 關於nan轉int類型報錯的問題

今天在對一堆新數據進行數據清洗的時候,遇到了一個這樣的問題: ValueError: cannot convert float NaN to integer 簡單描述一下問題,其實就是NaN在python3中無法被強轉。 首先

原创 Leetcode--SQL刷題(1194-1270)

1194. 錦標賽優勝者 題目中有一個翻譯錯誤,當得分相同時應該是id小的獲勝。 本題的關鍵是得到一個有player_id,group_id,score 組成的初始化表格。 # 自己的方法:得到初始化表格,想想哪不對? se

原创 Leetcode--SQL刷題(1149-1193)

1149. Article Views II # 0.33 # 注意count()中應該是文章article的id,不能是count(*)會存在重複行。 # 題目中問的也是 more than one article sele

原创 Java高級編程--補充

體會反射的動態性: public class NewInstanceTest { /** * 體會反射的動態性: * newInstance():調用此方法,創建對應的運行時類的對象。內部調用了運行時類

原创 用戶權限設置

一、用戶管理 基本命令: groupadd groupdel useradd userdel usermod id passwd sudo su 用戶創建: 設置密碼: 重新登錄: 查看用戶id:(還可以看到組id) 切

原创 Java高級編程--面試題

面試題1:獲得兩個字符串的最大子串 /** * 假設:兩個字符串中只有一個最大相同子串 * @param str1 * @param str2 * @return */ pub

原创 MySQL補充

優化特例補充 mysql> explain select * from customer order by store_id ; +----+------

原创 常見SQL優化原則

補充: 12. 複合索引的情況下,如果查詢條件不包含索引列的最左邊部分,即不滿足最左前綴原則,則不會使用索引。 13. 如果mysql估計使用索引掃描比全表掃描更慢,則不使用索引。(掃描數據超過30%,基本都會走全表) 14.

原创 Java高級編程--多線程

經典例題:生產者/消費者問題 生產者(Productor)將產品交給店員(Clerk),而消費者(Customer)從店員處取走產品, 店員一次只能持有固定數量的產品(比如:20),如果生產者試圖生產更多的產品,店員 會叫生產者停

原创 數據挖掘十大算法(四):樸素貝葉斯算法

一、基礎知識篇 條件概率 全概率公式: 貝葉斯推斷 同時再思考一個問題,在使用該算法的時候,如果不需要知道具體的類別概率,我們有必要計算P(B)這個全概率嗎?要知道我們只需要比較 P(A1|B)和P(A2|B)的大小,找

原创 數據分析實戰(六):英國電商用戶行爲分析

案例:英國電商用戶行爲數據分析 Part 1. 數據獲取 1.1 數據集簡介 https://archive.ics.uci.edu/ml/datasets/online+retail# 該數據集爲英國在線零售商在2010年12月

原创 Leetcode--SQL高頻題

175-512 550 569 579 584 595-596 601 603 613 619-1050 1082 1084 1098 1179 1193 1205 1251 點贊 收藏 分享

原创 數據分析實戰(八):北上廣深租房圖鑑

項目主要爬取北上廣深鏈家網全部租房房源數據,並且得出租金分佈、租房考慮因素等建議。 首先奉上爬蟲demo,如果有直接需要數據的請評論留言,會分享。 import os import re import time import re

原创 數據挖掘十大算法(十):K-means聚類算法

一,K-means算法原理 基本算法 K-means算法是最常用的一種聚類算法。算法的輸入爲一個樣本集(或者稱爲點集),通過該算法可以將樣本進行聚類,具有相似特徵的樣本聚爲一類。 算法步驟: step1:選定要聚類的類別數目k,同

原创 分類器性能評價

問題由來 以郵件分類爲例: 我們可以忍受收件箱中偶爾出現的垃圾郵件,但是絕不能忍受,合法郵件被誤扔如垃圾郵件夾中,萬一這是一封女神or男神的表白信,這豈不是因此錯過了一段曠世姻緣? 一、分類器性能度量指標 在之前,我們都是基於錯誤