原创 BN時候參數

BN,Batch Normalization,就是在深度神經網絡訓練過程中使得每一層神經網絡的輸入保持相近的分佈。 BN訓練和測試時的參數是一樣的嘛? 對於BN,在訓練時,是對每一批的訓練數據進行歸一化,也即用每一批數據的均值和方差。 而

原创 pd.cut()

pandas.cut用來把一組數據分割成離散的區間。比如有一組年齡數據,可以使用pandas.cut將年齡數據分割成不同的年齡段並打上標籤。  pandas.cut(x, bins, right=True, labels=None, r

原创 快速使用 BERT 生成詞向量:bert-as-service,bert生成句子向量和詞向量

https://blog.csdn.net/qq_34832393/article/details/90414293   使用 bert-as-service 生成詞向量 bert-as-service 是騰訊 AI Lab 開源的一個

原创 缺失值、異常值處理

主要有拉格朗日插值和牛頓插值法  

原创 data.describe( ):

data.describe( ): describe() 函數可以查看數據的基本情況,包括:count 非空值數、mean 平均值、std 標準差、max 最大值、min 最小值、(25%、50%、75%)分位數等。 len(data)

原创 抽取式文本摘要實現

1、介紹        1、本文自動文本摘要實現的依據就是詞頻統計      2、文章是由句子組成的,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。      3、句子的信息量用"關鍵詞"來衡量。如果包含的關鍵詞越

原创 迷惑度/困惑度/混亂度(preplexity)

語言模型構造完成後,如何確定好壞呢? 目前主要有兩種評價方法:   實用方法:通過查看該模型在實際應用(如拼寫檢查、機器翻譯)中的表現來評價,優點是直觀、實用,缺點是缺乏針對性、不夠客觀; 理論方法:迷惑度/困惑度/混亂度(preplex

原创 xgboost實戰

#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: Jia ShiLin import pandas as pd import xgboost as xgb from skl

原创 Pickle保存pkl文件的保存和讀取

cPickle保存 使用cPickle.dump來將對象(train_roidb)序列化到文件(train_data_25fps.pkl)中。 import cPickle cPickle.dump(train_roidb, open(

原创 python-讀取和保存npy文件

import numpy as np # .npy文件是numpy專用的二進制文件 arr = np.array([[1, 2], [3, 4]]) # 保存.npy文件 np.save("../data/arr.npy", arr

原创 BFPRT算法,BFPRT算法O(n)解決第k小的數

第k小算法 我們通常會簡單地進行一個快速排序後,得到第k個位置上的數字即可。 我們都知道的是快速排序是個不穩定的排序,它的排序過程簡單的理解主要是兩個概念Partion,pivot(基準數) 一趟快速排序的過程如下 先從序列中選取一個

原创 KMP算法

總結: 生成和原長度相同的數組Nextarr, 每個元素的值爲原來數組此下標前最長重複子串的長度。 利用Nextarr快速跳過包含相同重複子串部分 如 str 1=‘abcdabce’ Nextarr = [-1,0,0,0,0,1,2,

原创 PCA 和LDA(這裏指線性判別分析,而非LDA是隱含狄利克雷分佈(Latent Dirichlet Allocation))

PCA的思想     PCA是找出數據裏最主要的方面,用數據裏最主要的方面來代替原始數據。具體的,假如我們的數據集是n維的,共有m個數據(x(1),x(2),...,x(m))(x(1),x(2),...,x(m))。我們希望將這m個數

原创 點乘和叉乘

目錄 定義: 點乘公式 點乘幾何意義 叉乘公式​ 叉乘幾何意義,    問題:我知道向量乘分爲叉乘和點乘,矩陣乘不分什麼叉乘和點乘吧?如果存在各是什麼?線性代數上沒有,但在一些高端書上也有人提矩陣的叉乘,點乘.不能理解 -----矩陣也