隨機取樣

python實現隨機樣本取樣

可能在很多時候,我們需要在一批數據中隨機取樣,來檢查數據的完整性,所以今天我來實現一下這個功能。
我所做的是對一批數據同時取樣,意思就是說,假如現在一個xml對應到了一個jpg,他們的文件名相同,需要將着隨機的xml和jpg同時取出,取到的是對應的文件,然後我將他們取出的樣本放在了不同的文件下,我們來實現一下吧!!!

模塊

  • os
  • random
  • shutil
    同樣的文件路徑操作,我所做的是可以做到對大量數據進行操作,但是文件夾中有不同結尾的文件時,執行效率就會變低,所有您可以進行優化!
import os
import random
import shutil

def moveFile(xml_path, jpgDir, pastDir1, pastDir2):
	# 文件路徑
    path_txt = os.listdir(xml_path)
    path_png = os.listdir(jpgDir)
	
	# 隨機取樣
    filenumber = len(path_xml)
    rate = 0.2
    picknumber = int(filenumber * rate)
    sample = random.sample(path_xml, picknumber)
    for xml_name in sample:
    	# 判斷相同的文件名
        for jpg_name in path_jpg:
            if xml_name.split('.')[0] == jpg_name.split('.')[0]:			
            	# 拼接路徑
                xmlpath = os.path.join(xml_path, xml_name)
                jpgpath = os.path.join(jpgDir, jpg_name)
                # 判斷是否存在文件夾
                path1 = os.path.exists(pastDir1)
                path2 = os.path.exists(pastDir2)
                if not path1:
                	# 不存在,創建
                    os.mkdir(pastDir1)
                    shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
                else:
                	# 存在拷貝
                    shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
                # 同理
                if not path2:
                    os.mkdir(pastDir2)
                    shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)
                else:
                    shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)


if __name__ == '__main__':
    fileDir = r""  # xml文件路徑
    jpgDir = r""  # jpg文件路徑
    create_xml = r''  # 保存xml
    create_jpg = r''  # 保存jpg
    moveFile(fileDir, jpgDir, create_xml, create_jpg)

這樣就可以顯示對一批數據進行取樣了,若有什麼問題請留言告知!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章