原创 docker創建python容器環境

官方鏡像 如果你對於系統沒有要求,可以直接拉取官方的鏡像 docker pull python:3.7.7-slim-buster 這個鏡像只有100多m,debian的系統。當然也有不含操作系統的鏡像,只有幾十m 指定操作系統

原创 python讀取二進制文件 \xff\xfe \xef\xbb\xbf

讀取二進制文件編碼是一個比較麻煩的事情 我們在decode二進制文件時,是需要知道編碼格式的,除了常見的utf-8,還有UCS-2-Little Endian(utf-16-le)和UTF-8-BOM(utf-8-sig) 如下是

原创 深度學習(二)梯度計算

文章目錄梯度介紹鏈式法則邏輯迴歸梯度計算wx矩陣形式推導基礎知識 梯度介紹 深度學習的訓練本質是優化損失,優化的方式是計算梯度,然後通過優化算法更新參數 ,常見的優化算法SGD/Momentum/Adagrad/RMSProp/A

原创 爬蟲簡記(1)

本文內容參考自《Python爬蟲開發:從入門到實踐》,這裏僅是記錄一下筆記。 正則表達式是提取所需信息的基礎: 1.常用的正則字符 "." 代表除換行符以外的任何一個字符 "*" 代表它前面的一個子表達式0次到無限次 "?" 表示

原创 python將圖片生成二進制的兩種方式(java讀取)

文章目錄tobytes()生成帶格式的二進制 以程序中生成的詞雲圖爲例(方便測試,我把生成圖片調小了) wc = WordCloud(font_path=font_path, scale=1, collocations=False

原创 Bert源碼學習

文章目錄前言1. bert模型網絡modeling.py1.1 整體架構 BertModel(object):1.2 embedding層1.2.1 embedding_lookup1.2.2 詞向量處理 embedding_po

原创 Spark導入導出Hbase

本文代碼通過spark-shell運行 spark-shell --master yarn --driver-class-path /home/hadoop/software/spark/spark-2.4.4-bin-hadoo

原创 python讀取和寫入mysql

導入依賴包 import pymysql import pandas as pd import numpy as np from sqlalchemy import create_engine from sqlalchemy.ty

原创 c++ sstream

sstream定義了三個類:istringstream、ostringstream和stringstream分別用來進行流的輸入、輸出和輸入輸出操作 由於sstream使用string對象代替字符數組,避免緩衝區溢出的危險;其次,

原创 pandas pivot實現行轉列

pivot_table實現行轉列pivot_table函數樣例 pivot_table 透視表是一種可以對數據動態排布並且分類彙總的表格格式。或許大多數人都在Excel使用過數據透視表,也體會到它的強大功能,而在pandas中它被

原创 Keras Adam代碼解析以及EMA的Adam優化器

文章目錄Keras Adam初始化更新函數帶EMA的Adam Adam理論可以參考下這裏 優化算法的選擇 Keras Adam class Adam(Optimizer): """Adam optimizer.

原创 torch.no_grad和驗證模式

1.requires_grad requires_gradVariable變量的requires_grad的屬性默認爲False,若一個節點requires_grad被設置爲True,那麼所有依賴它的節點的requires_gra

原创 idea 包名命名出錯以及設置Application無法指定main class

項目所需學習idea發現幾個問題 1.package is not corresponding to file path 2.設置Application 發現沒有合適的main class 3.新建找不到class文件 以上問題

原创 Java MVC開發原理

學習廖雪峯老師的 MVC開發原理 在這裏記錄一下。 MVC:指的是model、view和controller,controller是處理業務邏輯返回view(視圖)和model(數據) 代碼最主要的類Dispatcher:作用是

原创 pd drop_duplicates返回結果count和to_csv的結果不一致

目的是從表中找出不重複的公司個數,一開始採用了drop_duplicates獲取一個去重後的表,count()後發現是500多家,神奇的是當我將結果導入csv,發現只有不到100條。然後我採用groupby的方式獲取分組結果,發現