原创 訓練樣本的處理以及注意事項

官網:https://scikit-learn.org/stable/index.html 在經過了數據的篩選,數據的清洗、數據的特徵處理,給數據加標籤之後就得到了數據的訓練樣本了。在得到訓練樣本之後還是要對訓練樣本做進步一的處理。 需要

原创 阿里雲presto的一些操作

1,將分組之後的string字符合並起來。如下所示: select distinct item_id,array_join(array_agg(distinct name),',') from shmods.my

原创 doc2vec的一些操作

1,從doc2vec模型中提取出word2vec向量表,代碼如下: from gensim.test.utils import common_texts from gensim.models.doc2vec import Doc2Vec

原创 查看進程的啓動目錄

1,通過ps命令來查看數據的啓動情況 ps aux | grep 'name' 得到任務的pid 2,在'/proc'文件夾下找到啓動文件夾 每個進程啓動之後在 /proc下面有一個於pid對應的路徑,該進程下的‘cwd’就是該任務的啓動

原创 iterm2配置sz、rz命令

  一,使用brew安裝lrzsz brew install lrzsz   下載完成之後在目錄"/usr/local/bin"下會有: sz,rz,lsz,lrz等文件;   二,下載腳本 從git上下載: cd /usr/local

原创 Python編碼錯誤:UnicodeEncodeError: 'ascii' codec can't encode 的一些總結

對於Python處理文本數據的時候經常出現的就是編碼錯誤了,煩不勝煩,編碼出錯時的錯誤提示爲: UnicodeEncodeError: 'ascii' codec can't encode characters in position

原创 crontab 執行定時任務失敗

遇到的問題:需要通過pyspark執行跑腳本數據,由於數據比較多,因此要分成每天每天的跑,跑一次大概需要1個半小時。因此寫了一個定時執行任務,如下所示: 08 13 * * * lechuan && cd /mnt/disk1/home

原创 部署線上服務--Python web框架tornado初體驗

啓動一個簡單的服務: 創建hello.py文件,在裏面寫入: #!/usr/bin/env python #-*-coding:utf-8 import re import os import json import time impo

原创 【Python練習題】將數據按照分數排序

有如下數據: 垃圾袋 1497043 5.063276505358443 抽紙 1064344 5.28969789617728 水杯 1181517 5.5993742803056765 水杯 1194451 9.1649717813

原创 Doc2vec實戰小試demo

一,測試demo 代碼如下: from gensim.test.utils import common_texts from gensim.models.doc2vec import Doc2Vec, TaggedDocument d

原创 Word Embedding資料整理

最近要分享一次Word Embedding,雖然對這個東西早就知道,但是一直沒有一個詳細的梳理,趁着這次機會好好梳理一下這方面的東西。在網上看到正好有人寫了相關的文章,就拿來學習了一番,再加上一些作者不屑於寫的知識。 word Embed

原创 TensorFlow初步使用

一,安裝TensorFlow 安裝地址:https://tensorflow.google.cn/install 我是直接在conda下安裝的,TensorFlow有很多版本,安裝了一個cpu穩定版本,命令是: conda instal

原创 rsync在跳板機之間傳遞文件

背景:從機器m67上面傳遞文件到m24上,文件不大 兩個機器已經是聯通的,連接的端口是58422。 準備:在m24機器的username根目錄下建立一個58422文件夾,傳送的數據都會在這個文件夾下面。 rsync -e 'ssh -p

原创 mysql groupby字符串拼接

使用group_concat聚合函數將字符串拼接起來: select buyer_id,group_concat(query)  from order_source where query !="" group by buyer_id ;

原创 【Python】獲取前幾天的日期轉成固定的格式

代碼如下: import time import datetime today = time.strftime("%Y-%m-%d", time.localtime()) /獲取當前時間並轉換成固定格式 week_ago_time