【python小技巧】分塊讀取大文件、讀取數據內容帶引號的文本文件

原創

2020-06-17 04:29

# ===================== 逐塊讀取文本文件 ===========================
nrows = 10 # 只讀取一定行數的數據
chunksize = 4 # 分塊讀取，返回一個可迭代對象TextFileReader
iterator = True # 返回一個可迭代對象，使用df.get_chunk(10)查看數據

# ===================== 處理分隔符格式 ========================
import csv
def csv_read_file(file_path, delimiter=',', header=True, lineterminator='\r\n', quotechar='"', skipinitialspace=False):
    """csv模塊讀取形如
    "a","b","c"
    "1","2","3"
    "1","2","3"
    等帶特殊符號的不規範數據
    :param file_path: 文件路徑
    :param delimiter: 分隔符,默認爲逗號
    :param header: 文件中是否帶標題行,默認True
    :param lineterminator: 用於寫操作的行結束符,默認爲'\r\n'
    :param quotechar: 用於帶有特殊字符(如分隔符)的字段的引用符號,默認爲'"'
    :param skipinitialspace: 忽略分隔符後面的空白符,默認爲False
    :return df: 返回一個DataFrame
    """
    
    with open(file_path) as f:
        lines = list(csv.reader(f, delimiter=delimiter, lineterminator=lineterminator, quotechar=quotechar, skipinitialspace=skipinitialspace))
        
        if header:
            header, values = lines[0],lines[1:]
            data_cidt = {k:v for k,v in zip(header, zip(*values))}
        else:
            data_cidt = {index:v for index,v in enumerate(zip(*lines))}
        df_result = pd.DataFrame(data_cidt)
        f.close()
    
        return df_result

df = csv_read_file(r'C:\Users\86188\Desktop\python/ex1', header=True)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

盤點一個Pandas數據分組的問題

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【上海新年人】問了一個Pandas數據分組的問題，問題如下： list1 = '電子稅票號碼徵收稅務機關社保經辦機構單位編號費種徵收品目徵收子目費款所屬

2024-06-07 10:02:02

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【WYM】問了一個Pandas處理的問題，提問截圖如下：原始數據： temp = dict() temp[64001] = {64002: 1.0, 64003: 1.0,

2024-05-30 10:02:40

安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具?

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【斌】問了一個Python庫安裝的問題。求教大佬：華爲筆記本，麒麟系統，安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具，再安裝

2024-05-25 10:02:28

Java開發必讀，談談對Spring IOC與AOP的理解

本文分享自華爲雲社區《超詳細的Java後臺開發面試題之Spring IOC與AOP》，作者：GaussDB 數據庫。一、前言 IOC和AOP是Spring中的兩個核心的概念，下面談談對這兩個概念的理解。二、IOC（Inverse o

2024-06-07 22:57:21

一文搞懂 Spring 循環依賴

這個其實是一個特別高頻的面試題，松哥也一直很想和大家仔細來聊一聊這個話題，網上關於這塊的文章很多，但是我一直覺得要把這個問題講清楚還有點難度，今天我來試一試，看能不能和小夥伴們把這個問題梳理清楚，當然，如果小夥伴們覺得看文章不過癮，松哥也有

2024-06-06 13:11:47

營銷系統黑名單優化：位圖的應用解析

背景營銷系統中，客戶投訴是業務發展的一大阻礙，一般會過濾掉黑名單高風險賬號，並配合頻控策略，來減少客訴，進而增加營銷效率，減少營銷成本，提升營銷質量。營銷系統一般是通過大數據分析建模，在CDP（客戶數據平臺，以客戶爲核心，圍繞數據融

京東雲開發者

2024-06-06 11:54:12

導入地址表鉤取技術解析

前置知識導入表在一個可執行文件需要用到其餘DLL文件中的函數時，就需要用到導入表，用於記錄需要引用的函數。例如我們編寫的可執行文件需要用到CreateProcess函數，就需要用到kernel32.dll文件並且將其中的Create

2024-06-06 11:14:53

一文帶你理解透MyBatis源碼

本文分享自華爲雲社區《一文徹底喫透MyBatis源碼！！》，作者：冰河。寫在前面隨着互聯網的發展，越來越多的公司摒棄了Hibernate，而選擇擁抱了MyBatis。而且，很多大廠在面試的時候喜歡問MyBatis底層的原理和源碼實現

2024-06-03 10:59:21

DataCube 漏洞小結

在這裏分享一下通過拖取 DataCube 代碼審計後發現的一些漏洞，包括前臺的文件上傳，信息泄露出賬號密碼，後臺的文件上傳。當然還有部分 SQL 注入漏洞，因爲 DataCube 採用的是 SQLite 的數據庫，所以SQL 注入相對來說顯

2024-05-30 11:16:40

在一次滲透中學會編寫Tamper腳本

拿到這個網站，通過對比查詢，我們發現閉合參數 finsh 時，查詢出的內容更多經過進一步判斷，確實存在漏洞不過在測試的時候發現存在一定的過濾但是可以通過內聯註釋進行繞過。這裏也是加深瞭解了內聯註釋的知識點，之前只會簡單的

2024-05-22 11:16:41

前端面試題 - vue的雙向綁定原理是什麼？

前端面試題 - vue的雙向綁定原理是什麼？ vue2的雙向數據綁定是通過數據劫持結合發佈者訂閱者模式的方式來實現。通過object.defineProperty來劫持各個屬性的setter，getter，在數據變化時發佈消息給訂閱者，

2024-05-17 00:41:12

前端面試題 - Node JS與V8是什麼關係？

前端面試題 - Node JS與V8是什麼關係？ V8 引擎是 Node.js 的核心組成部分，負責執行 JavaScript 代碼，而 Node.js 爲 V8 提供了一個運行環境和API，使其能夠在服務器端運行。通俗易懂的前端面試題

2024-05-16 12:41:41

前端面試題 - V8是什麼？

前端面試題 - V8是什麼？ V8 是一個JavaScript引擎，能將JavaScript代碼直接編譯成本地平臺的機器碼並執行。通俗易懂的前端面試題網站： https://www.front-interview.com

2024-05-16 12:41:40

Spring知識點詳解（源碼筆記+思維導圖），AOP和IOC

寫在前面由於Spring家族的東西很多，一次性寫完也不太現實。所以這一次先更新Spring【最核心】的知識點：AOP和IOC 無論是入門還是面試，理解AOP和IOC都是非常重要的。在面試的時候，我沒怎麼被問過MyBatis/Hib

2024-05-14 01:47:38

我是如何再衆多面試大佬中脫穎而出的，就憑藉這份近4000頁Java筆試題，讓我在阿里，美團，華爲，百度等衆多大廠面試中如魚得水！

最近又趕上跳槽的高峯期，好多粉絲，都問我要有沒有最新面試題，索性，我就把我看過的和我面試中的真題，及答案都整理好，整理了《第2版：互聯網大廠面試題》並分類 92份PDF，累計 3625頁！我會持續更新中，馬上就出第三版，涵蓋大廠算法會

2024-05-14 00:46:45

24小時熱門文章

最新文章

最新評論文章