python實現隨機樣本取樣
可能在很多時候,我們需要在一批數據中隨機取樣,來檢查數據的完整性,所以今天我來實現一下這個功能。
我所做的是對一批數據同時取樣,意思就是說,假如現在一個xml對應到了一個jpg,他們的文件名相同,需要將着隨機的xml和jpg同時取出,取到的是對應的文件,然後我將他們取出的樣本放在了不同的文件下,我們來實現一下吧!!!
模塊
- os
- random
- shutil
同樣的文件路徑操作,我所做的是可以做到對大量數據進行操作,但是文件夾中有不同結尾的文件時,執行效率就會變低,所有您可以進行優化!
import os
import random
import shutil
def moveFile(xml_path, jpgDir, pastDir1, pastDir2):
# 文件路徑
path_txt = os.listdir(xml_path)
path_png = os.listdir(jpgDir)
# 隨機取樣
filenumber = len(path_xml)
rate = 0.2
picknumber = int(filenumber * rate)
sample = random.sample(path_xml, picknumber)
for xml_name in sample:
# 判斷相同的文件名
for jpg_name in path_jpg:
if xml_name.split('.')[0] == jpg_name.split('.')[0]:
# 拼接路徑
xmlpath = os.path.join(xml_path, xml_name)
jpgpath = os.path.join(jpgDir, jpg_name)
# 判斷是否存在文件夾
path1 = os.path.exists(pastDir1)
path2 = os.path.exists(pastDir2)
if not path1:
# 不存在,創建
os.mkdir(pastDir1)
shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
else:
# 存在拷貝
shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
# 同理
if not path2:
os.mkdir(pastDir2)
shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)
else:
shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)
if __name__ == '__main__':
fileDir = r"" # xml文件路徑
jpgDir = r"" # jpg文件路徑
create_xml = r'' # 保存xml
create_jpg = r'' # 保存jpg
moveFile(fileDir, jpgDir, create_xml, create_jpg)
這樣就可以顯示對一批數據進行取樣了,若有什麼問題請留言告知!!!