原创 pandas處理泰坦尼克號數據集(1)基礎處理

數據集描述 Survived:0代表死亡,1代表存活 Pclass:乘客所持票類,有三種值(1,2,3) Name:乘客姓名 Sex:乘客性別 Age:乘客年齡(有缺失) SibSp:乘客兄弟姐妹/配偶的個數(整數值) Parch

原创 List存儲學生對象並遍歷(兩種方式)

1. 1 List的特點 可重複,有序,存儲和取出順序一致 1.2 存儲學生對象並遍歷 import java.util.ArrayList; import java.util.Iterator; import java.ut

原创 楊輝三角python小代碼

剛剛上機課,老師居然讓我們打印楊輝三角??結果 def yangHuiSanJiao(n): #打印第一行和第二行 print("1".center(50)) next_line = [1,1]

原创 併發修改異常解決xception in thread "main" java.util.ConcurrentModificationException

List<String> list = new ArrayList<>(); list.add("cobe"); list.add("james"); list.add("curr

原创 hadoop MapReduce案例運營商關於用戶基站停留數據統計

1、功能描述 用戶的手機,連接到不同的基站會產生一條記錄。 數據格式爲:用戶標識 設備標識 基站位置 通訊的日期 通訊時間 example: 0000009999 0054785806 00000089

原创 使用jupyter交互pyspark

使用jupyter交互pyspark1. 準備(已安裝python環境或者使用的是雲平臺的同學可以直接看第二步)2. jupyter與pyspark交互3. 嘗試編寫代碼 若想使用的是Scala,參考文章《基於pyspark 和s

原创 第十屆藍橋杯B組試題之數的分解

問題描述 把 2019 分解成 3 個各不相同的正整數之和,並且要求每個正整數都不包含數字 2 和 4,一共有多少種不同的分解方法? 注意交換 3 個整數的順序被視爲同一種方法,例如 1000+1001+18 和 1001+100

原创 numpy基礎使用小結

import numpy as np # 1. np讀取文本文件 world_alcohol = np.genfromtxt("world_alcohol.txt", delimiter=",") print(type(worl

原创 第十屆藍橋杯B組試題之特別的數的和

試題 F: 特別數的和 【問題描述】 小明對數位中含有 2、0、1、9 的數字很感興趣(不包括前導 0),在 1 到 40 中這樣的數包括 1、2、9、10 至 32、39 和 40,共 28 個,他們的和是 574。 請問,在

原创 Spark the definitive guide Chapter12實驗報告

【實驗名稱】Chapter12 彈性分佈數據集(RDDs)**什麼是底層api****如何使用底層api****關於RDD的定義及特點****創建RDD**轉換(Transformations)**action操作**保存結果數據

原创 網絡爬蟲基本概念

爬蟲的概念 爬蟲是模擬瀏覽器發送請求,獲取響應 爬蟲的流程 url–>發送請求,獲取響應–>提取數據–>保存 發送請求,獲取響應–>提取url 頁面上的數據在哪 當前url對應響應的地方 其他url對應響應的地方 –比如

原创 網絡爬蟲之cookie

cookies是什麼 Cookies是一種能夠讓網站服務器把少量數據儲存到客戶端的硬盤或內存,或是從客戶端的硬盤讀取數據的一種技術。Cookies是當你瀏覽某網站時,由Web服務器置於你硬盤上的一個非常小的文本文件,它可以記錄你的

原创 爬蟲驗證碼的識別

驗證碼的識別 tesseract-ocr 也是個比較好的,但我還是選擇借用雲打碼,會方便不少 url不變,驗證碼不變(例如豆瓣登陸) 請求驗證碼的地址,獲得響應,識別 url不變,驗證會變 思路:對方服務器返回驗證碼的時

原创 爬取小豬網站住房信息並把結果存儲到數據庫中

from bs4 import BeautifulSoup import requests, pymongo #激活MongoDB client = pymongo.MongoClient('localhost', 27017)