原创 MAC本地搭建spark

Pyspark 安裝 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple 求和 from pyspark import SparkContext,Spark

原创 Python機器學習中常見的數據處理

重複值,輸入爲DataFrame,檢測是否有重複的行以及刪除重複的行並生成新的DataFrame class Duplicated(): def __init__(self,df,subset=None,keep='fir

原创 Autoencoder的一些應用(pytorch版)

預備知識-數據裝載(pytorch)      數據的加載,一般面對的數據是numpy array的格式,如何轉變爲支持batch_size,shuffle等功能的數據集呢,pytorch 採用 DataLoader類來實現,參考源碼

原创 Python遞歸解析同盾返回的json數據

啥也不說,以某盾的返回數據爲例,很多吐槽比較難解析!! 數據中無限嵌套,嵌套的類型爲json 和 array 數據是存在ElasticSearch中的,所以先看看 雖然很長,但是結構無非是嵌套json 或者 list的格式,看下面結構(

原创 Python生成pmml文件

什麼是pmml predictive model markup language  預測模型標記語言 1997年7月提出 xml格式 通用性(跨平臺)、規範性(規範化模型描述語言)、異構性(xml本身的異構性)、獨立性(獨立於數據挖掘

原创 pytorch實現邏輯迴歸訓練

! 比較簡單,直接上代碼   import torch import torch.nn as nn import torch.optim from torch.autograd import Variable from sklearn

原创 pytorch的Tensor基礎操作

一.數據類型 64位整型:torch.LongTensor 32位整型:torch.IntTensor 16位整型:torch.ShortTensor 64位浮點型:torch.DoubleTensor import torch im

原创 best-ks分箱和卡方分箱的python實現

import pandas as pd import numpy as np from scipy.stats import chi2 # 計算2*2列聯表的卡方值 def get_chi2_value(arr): rows

原创 pytesseract識別效果

import pytesseract from PIL import Image import os # 測試默認的中文識別 chi_result = pytesseract.image_to_string(Image.open(

原创 python實現評分卡常見函數(一)

對缺失值比例過高的指標進行剔除 # 單列缺失值的統計,返回缺失比例、缺失記錄數等 def cal_single_column_nullrate(df,colname,is_len=False): if is_len:

原创 信用評分卡常用函數(二)

自定義分箱 df=pd.DataFrame({ "age":[1.1,2.1,1.3,3.4,5.6,7.8,5.2,3.4,7.4,6.1,6.9,8.9], "tag":['good','good','good','

原创 pyltp

說明:以下分析基於python3.6以及macOs 10.12.6 refer: https://pyltp.readthedocs.io/zh_CN/develop/api.html 語料庫下載:https://pan.baidu.co

原创 未登陸詞/停用詞建立和使用

refer:https://wenku.baidu.com/view/0029a79a376baf1ffd4fad8d.html https://wenku.baidu.com/view/0029a79a376baf1ffd4fad8d.

原创 熵的計算

#借用下python機器學習中的數據集 import numpy as np from collections import Counter from math import log def CreateDataSet():

原创 梯度下降(BGD/SGD/MBGD)的實現

         梯度下降法,也稱最速下降法,用當前位置負梯度作爲搜索方向,靠近目標值的時候收斂速度會下降; 如果爲凸函數,則目標值爲全局最優值,否則,會陷入局部最優的情況          import numpy as np f