原创 常見30種NLP任務的練手項目

1.分詞 Word Segmentation chqiwang/convseg ,基於CNN做中文分詞,提供數據和代碼。 2.詞預測 Word Prediction Kyubyong/word_prediction ,基於CNN做

原创 python 將多個表格合併成一個表格中的多個sheet

本篇介紹,把多個excel表分別寫到一個表格對應的多個sheet裏面,每個表的名稱就是sheet的名字 第一種方法:用pandas import os import pandas as pd dir = './table_dir

原创 python 合併兩個txt文件

合併兩個txt文件 合併兩個文件,其實只要把文件2的內容追加到文件1中就可以了 例如,現有兩個文件,file1和file2: file1.txt: 123 456 file2.txt: abc def 代碼如下: file

原创 超好用Python小功能(持續更新中)

文章目錄一、字符串操作小功能1、把數字轉爲千位數值類型2、檢測字符串是不是純數字3、python列表的交、並、差集4、對列表中字典中的字典排序5、python 求角度大小6、已知一個點,圍繞某個點旋轉,求旋轉後的座標7、對列表內元

原创 實現windows 和linux環境 word轉pdf功能

本文章實現不同環境,word文檔轉pdf文檔 文章目錄一、linux環境1、環境安裝2、測試安裝是否成功:問題彙總:1、linux系統缺少中文字體導致2、禁用libreoffice屏幕顯示(不一定管用)二、windows環境1、環

原创 機器學習之模型評估方法總結

文章目錄一、分類模型評估指標1、混淆矩陣(confusion matrix)2、ROC3、AUC二、迴歸模型評估指標1、SSE(和方差)2、MSE(均方差)3、RMSE(均方根、標準差)4、R-Squared(確定係數)5、MAE

原创 機器學習之多種算法優缺點總結及優化方法

文章目錄一、無監督算法:1、聚類算法:Kmeans2、關聯規則算法:Apriori3、關聯算法:FP--growth二、有監督算法1、分類算法決策樹(Decision Tree)支持向量機(SVM)K近鄰(kNN,k-Neares

原创 解決centos配置的eth0不生效問題

自己在虛擬機中配置的eth0,重啓或者遷移鏡像之後,靜態ip不生效,查看ifconfig,結果生成了新的eth1。 第一步: $ vim /etc/udev/rules.d/70-persistent-net.rules 複

原创 機器學習之XGBoost集成算法、牛頓法

一、XGBoost算法 基本構成 boosted tree作爲有監督學習算法有幾個重要部分:模型、參數、目標函數、優化算法 模型 模型指給定輸入x如何去預測輸出y 參數 參數指我們需要學習的東西,在線性模型中,參數指我們的線性係數

原创 機器學習之隨機森林(RF)詳解

文章目錄一、bagging算法1、簡介2. bagging算法流程二、隨機森林1、簡介2、CART分類樹的生成3、總結 常用集成學習包括Bagging ,Boosting, Stacking三種。見 https://blog.c

原创 Keras同時用多張顯卡訓練網絡

文章目錄References.0. 誤區1. 目的2. 實現2.1 設計一個類2.2 調用非常簡潔 轉自:https://www.jianshu.com/p/db0ba022936f References. 官方文檔:multi_

原创 Python 小功能

文章目錄1、把數字轉爲千位數值類型2、找出字符在字符串中的位置3、檢測字符串是不是純數字4、打印出文件的絕對路徑和文件名稱5、給表格添加顏色6、Python 使用argparse參數的傳遞7、用flask實現文件上傳和下載8、pa

原创 面試算法簡述

文章目錄一、機器學習生成模式和判別模式的區別:感知機:K-means:k近鄰:樸素貝葉斯:極大似然估計:邏輯迴歸(LR):L1和L2的區別FP(FP-growth)關聯算法支持向量機(SVM):決策樹:bagging隨機森林:boos

原创 極大似然估計詳解

第一個鏈接通俗易懂 https://zhuanlan.zhihu.com/p/26614750 第二個更詳細一點 https://blog.csdn.net/zengxiantao1994/article/details/727878

原创 Frequent Pattern 挖掘之二(FP Growth算法)

文章目錄FP樹構造FP樹的挖掘 每一步都很詳盡,推薦看 FP樹構造 FP Growth算法利用了巧妙的數據結構,大大降低了Aproir挖掘算法的代價,他不需要不斷得生成候選項目隊列和不斷得掃描整個數據庫進行比對。爲了達到這樣的效果,它