python015 -- 文件

12.1 open()

open()函數作用是打開文件,返回一個文件對象。

用法格式:open(name[, mode[, buffering[,encoding]]]) -> file object

name 文件名

mode 模式,比如以只讀方式打開

buffering 緩衝區

encoding 返回數據採用的什麼編碼,一般utf8或gbk

Mode

Description

r 只讀,默認
w 只寫,打開前清空文件內容
a 追加
a+ 讀寫,寫到文件末尾
w+ 可讀寫,清空文件內容
r+ 可讀寫,能寫到文件任何位置
rb 二進制模式讀
wb 二進制模式寫,清空文件內容

例如:打開一個文件

1
2
3
4
5
6
7
8
9
10
11
12
>>> f = open('test.txt''r')
>>> f.
f.__class__(         f.__new__(           f.encoding           f.readinto(
f.__delattr__(       f.__reduce__(        f.errors             f.readline(
f.__doc__            f.__reduce_ex__(     f.fileno(            f.readlines(
f.__enter__(         f.__repr__(          f.flush(             f.seek(
f.__exit__(          f.__setattr__(       f.isatty(            f.softspace
f.__format__(        f.__sizeof__(        f.mode               f.tell(
f.__getattribute__(  f.__str__(           f.name               f.truncate(
f.__hash__(          f.__subclasshook__(  f.newlines           f.write(
f.__init__(          f.close(             f.next(              f.writelines(
f.__iter__(          f.closed             f.read(              f.xreadlines(

open()函數打開文件返回一個文件對象,並賦予遍歷f,f就擁有了這個文件對象的操作方法。

方法

描述

f.read([size]) 讀取size字節,當未指定或給負值時,讀取剩餘所有的字節,作爲字符串返回
f.readline([size]) 從文件中讀取下一行,作爲字符串返回。如果指定size則返回size字節
f.readlines([size]) 讀取size字節,當未指定或給負值時,讀取剩餘所有的字節,作爲列表返回
f.write(str) 寫字符串到文件
f.writelines(seq) 寫序列到文件,seq必須是一個可迭代對象,而且要是一個字符串序列
f.seek(offset[, whence=0]) 在文件中移動文件指針,從whence(0代表文件起始位置,默認。1代表當前位置。2代表文件末尾)偏移offset個字節
f.tell() 返回當前在文件中的位置
f.close()
關閉文件
f.flush 刷新緩衝區到磁盤

12.2 文件對象操作

寫一個測試文件test.txt舉例:

1
2
3
4
5
# cat test.txt
1.Python
2.Java
3.C++
4.Ruby

12.2.1 read()讀取所有內容

1
2
3
>>> f = open('test.txt''r')
>>> f.read()
'1.Python\n2.Java\n3.C++\n4.Ruby\n'

指定讀取多少字節:

1
2
3
>>> f = open('test.txt''r')
>>> f.read(9)  # 獲取指定字節
'1.Python\n'

12.2.2 readline()讀取下一行內容

1
2
3
4
5
>>> f = open('test.txt''r')
>>> f.readline()
'1.Python\n'
>>> f.readline()
'2.Java\n'

12.2.3 readlines()讀取所有內容返回一個列表

1
2
3
>>> f = open('test.txt''r')
>>> f.readlines()
['1.Python\n''2.Java\n''3.C++\n''4.Ruby\n']

12.2.4 wirte()寫入字符串到文件

1
2
3
4
5
6
7
8
9
>>> f = open('test.txt''a')  # 以追加方式打開文件
>>> f.write("5.Shell\n")  # 這一步並沒有真正寫到文件
>>> f.flush()  # 刷新到磁盤才寫到文件
# cat test.txt
1.Python
2.Java
3.C++
4.Ruby
5.Shell

12.2.5 wirtelines()寫入一個序列字符串到文件

1
2
3
4
5
6
7
8
9
10
>>> f = open('test.txt''a')
>>> f.writelines(['a','b','c'])
>>> f.flush()
# cat test.txt
1.Python
2.Java
3.C++
4.Ruby
5.Shell
abc

12.2.6 seek()從指定位置讀取

1
2
3
4
5
6
7
8
9
>>> f = open('test.txt''r')
>>> f.tell()
0
>>> f.seek(9)
>>> f.tell()
9
>>> f.seek(5,1)  # 1表示從當前位置開始
>>> f.tell()
14

12.2.7 tell()返回當前指針位置

1
2
3
4
5
6
7
8
9
10
11
12
>>> f = open('test.txt''r')
>>> f.tell()
0
>>> f.readline()
'1.Python\n'
>>> f.tell()   
9
>>> f.readline()
'2.Java\n'
>>> f.tell()   
16
>>> f.close()  # 使用完後關閉文件


博客地址:http://lizhenliang.blog.51cto.com

QQ羣:323779636(Shell/Python運維開發羣


12.3 文件對象增刪改查

在shell中,我們要想對文件指定行插入內容、替換等情況,使用sed工具很容易就實現。在本章節講的open()函數並沒有直接類似與sed工具的方法,要想實現這樣的操作,變通的處理能到達此效果,主要思路是先讀取內容修改,再寫會文件,以下舉幾個常用的情況 

12.3.1 在第一行增加一行

例如:在開頭添加一個test字符串

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data = f.read()
data = "test\n" + data
= open('test.txt''w')
f.write(data)
f.flush()
f.close()
 
# python test.py
# cat test.txt
test
1.Python
2.Java
3.C++
4.Ruby

先將數據讀出來,然後把要添加的test字符串拼接到原有的數據,然後在寫入這個文件。

12.3.2 在指定行添加一行

例如:在第二行添加一個test字符串

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data_list = f.readlines()  # 經測試,此方法比下面迭代效率高
# data_list = []
# for line in f:
#     data_list.append(line)
data_list.insert(1'test\n')
# data = ''.join(data)
= open('test.txt''w')
# f.write(data)
f.writelines(data_list)  
f.flush()
f.close
 
# python test.py
# cat test.txt
1.Python
test
2.Java
3.C++
4.Ruby

先將數據以列表存儲,就可以根據下標插入到指定位置,也就是哪一行了。再通過join把列表拼接成字符串,最後寫到文件。

12.3.3 在匹配行前一行或後一行添加test字符串

1
2
3
4
5
6
7
8
9
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data_list = f.readlines()
data_list.insert(2-1'test\n')  # 在指定行減去一行就是上一行了,下一行插入同理
= open('test.txt''w')
f.writelines(data_list)
f.flush()
f.close

12.3.4 刪除指定行

例如:刪除第三行,與在指定行添加同理

1
2
3
4
5
6
7
8
9
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data_list = f.readlines()
data_list.pop(2)
= open('test.txt''w')
f.writelines(data_list)
f.flush()
f.close

例如:只保留第一行至第三行

1
2
3
4
5
6
7
8
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data_list = f.readlines()[0:2]  # 列表切片
= open('test.txt''w')
f.write(data_list)
f.flush()
f.close

12.3.5 刪除匹配行

例如:刪除匹配Py字符的行

1
2
3
4
5
6
7
8
9
10
11
12
13
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data = f.readlines()
# data_list = []
# for line in data:
#     if line.find('Py') == -1:   # 如果當前行不包含Py字符,會返回-1,否則返回下標
#         data_list.append(line)
data_list = [line for line in data if line.find('Py'== -1]  
= open('test.txt''w')
f.writelines(data_list)
f.flush()
f.close

12.3.6 全局替換字符串

1
2
3
4
5
6
7
8
9
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data = f.read()
data.replace('old string''new string')
= open('test.txt''w')
f.write(data)
f.flush()
f.close

12.3.7 在指定行替換字符串

例如:將C++改爲C#

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt''r')
data = f.readlines()
data_list = []
for line in data:
    if data.index(line) == 2:
        data_list.append(line.replace('++''#'))
    else:
        data_list.append(line)
= open('test.txt''w')
f.writelines(data_list)
f.flush()
f.close

12.3.8 處理大文件

在讀取上G文件時,直接讀取所有內容會導致內存佔用過多,內存爆掉。要想提高處理效率,有以下兩種方法:

方法1:open()打開文件返回的對象本身就是可迭代的,利用for循環迭代可提高處理性能

1
2
3
4
5
6
7
8
>>> f = open('test.txt')
>>> for line in f:
...   print line   # 每行後面會有一個換行符\n,所以會打印出來換行符,可以使用line.strip('\n')去除
...
1.Python
2.Java
3.C++
4.Ruby

方法2:每次只讀取固定字節

1
2
3
4
5
6
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt')
while True:
    data = f.read(1024)  # 每次只讀取1024字節
    if not data: break

12.3.9 下載文件

1
2
3
4
5
6
7
8
9
10
11
方法1
import urllib
url = "http://nginx.org/download/nginx-1.10.1.tar.gz"
urllib.urlretrieve(url, "nginx-1.10.1.tar.gz")
 
方法2
import urllib2
url = "http://nginx.org/download/nginx-1.10.1.tar.gz"
= urllib2.urlopen(url).read()
with open("nginx-1.10.1.tar.gz""wb") as data:
    data.write(f)

12.4 fileinput

fileinput模塊是Python內建模塊,用於遍歷文件,可對多文件操作。

方法

描述

fileinput.input([files[, inplace[, backup[, mode[, openhook]]]]])

files:文件路徑,多文件這樣寫['1.txt,'2.txt'']

inplace:是否將標準輸出寫到原文件,默認是0,不寫

backup:備份文件擴展名,比如.bak

mode:讀寫模式,默認r,只讀

openhook:

fileinput.isfirstline() 檢查當前行是否是文件的第一行
fileinput.lineno() 返回當前已經讀取行的數量
fileinput.fileno() 返回當前文件數量
fileinput.filelineno() 返回當前讀取行的行號
fileinput.filename() 返回當前文件名

12.4.1 遍歷文件內容

1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input('test.txt'):
    print line
     
# python test.py 
1.Python
2.Java
3.C++
4.Ruby

12.4.2 返回當前讀取行的行號

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input('test.txt'):
    print fileinput.filelineno()
    print line,  # 逗號忽略換行符
     
# python test.py
1
1.Python
2
2.Java
3
3.C++
4
4.Ruby

12.4.3 全局替換字符,修改原文件

1
2
3
4
5
6
#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input('test.txt', backup='.bak', inplace=1):
    line = line.replace('++','#')
    print line,

先把要操作的文件備份一個以.bak的後綴文件,inplace=1是將標準輸出寫到原文件,也就是這個腳本如果沒有標準輸出,就會以空數據寫到原文件。

12.4.4 對多文件操作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input(['test.txt''test2.txt']):
    print line,
12.4.5 實時讀取文件新增內容,類似tail -f
#!/usr/bin/python
# -*- coding: utf-8 -*-
with open('access.log') as f:
     f.seek(0,2)   # 每次打開文件都將文件指針移動到末尾
     while True:  
         line = f.readline()
         if line:
             print line,

這個死循環會一直執行下面的操作。很消耗性能。

我們可以加個休眠,每秒讀取一次:

1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/python
# -*- coding: utf-8 -*-
import time
with open('access.log') as f:
     f.seek(0,2)
     while True:
         line = f.readline()
         if line:
             print line,
         else:
             time.sleep(1)

12.5 shutil

shutil模塊是Python內建模塊,用於文件或目錄拷貝,歸檔。

方法

描述

shutil.copyfile(src, dst) 複製文件
shutil.copytree(src, dst) 複製文件或目錄
shutil.move(src, dst) 移動文件或目錄
shutil.rmtree(path,ignore_errors=False, onerror=None) 遞歸刪除目錄。os.rmdir()不能刪除有文件的目錄,就可以用這個了
shutil.make_archive(base_name, format, root_dir=None, base_dir=None, verbose=0, dry_run=0, owner=None, group=None, logger=None)

Python2.7以後纔有這個方法。

功能是創建zip或tar歸檔文件。

base_name:要創建歸檔文件名

format:歸檔文件格式,有zip、tar、bztar、gztar

root_dir:要壓縮的目錄

base_dir:?

用法:shutil.make_archive('wp','zip','/root/wordpress')   

12.6 with語句

在處理一些事務時,可能會出現異常和後續的清理工作,比如讀取失敗,關閉文件等。這就用到了異常處理語句try...except,如下:

1
2
3
4
5
6
7
#!/usr/bin/python
# -*- coding: utf-8 -*-
= open('test.txt')
try:
    data = f.read()
finally:
    f.close()

Python對於這種情況提供了一種更簡單的處理方式,with語句。處理一個文件時,先獲取一個文件句柄,再從文件中讀取數據,最後關閉文件句柄。如下:

1
2
3
4
#!/usr/bin/python
# -*- coding: utf-8 -*-
with open('test.txt') as f:
    data = f.read()

可見這種方式顯得更簡約,一些異常、清理工作都交給with處理了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章