第十九章 電子郵件
MUA:mail user agent——郵件用戶代理
MTA:mail transfer agent——郵件傳輸代理
MDA:mail delivery agent——郵件投遞代理
1、email郵件處理流程
假設我們自己的郵件地址是[email protected],對方郵件地址是[email protected]
(1)用outlook或foamail寫好郵件,填上對方地址,點擊發送,電子郵件就發送了出去。這些電子郵件軟件被稱爲MUA
(2)email從MUA發出去,不是直接到達對方電腦,而是發送到MTA,即email服務提供商,如網易、新浪等。由於我們自己的電子郵件是163.com,所以email首先被投遞到網易提供的MTA,再由網易的MTA發送到對方服務商,即新浪MTA
(3)email到達新浪MTA後,由於對方是用的是@sina.com的郵箱,新浪MTA會把email投遞到最終目的地MDA。Email到達MDA後,就靜靜的躺在新浪的某個服務器上,存放在某個文件或特殊的數據庫裏,將這個長期保存郵件的地方稱爲電子郵箱。
(4)email不會直接到達對方的電腦,因爲對方電腦不一定開機,開機也不一定聯網。對方要取到郵件,必須通過MUA從MDA上把郵件取到自己的電腦上。
一封電子郵件的流程就是:
發件人->MUA->MTA->MTA->若干個MTA->MDA<-MUA<-收件人
2、要編寫程序來發送和接收郵件,本質上就是:
(1)編寫MUA把郵件發送到MTA
(2)編寫MUA從MDA上收郵件
發郵件時,MUA和MTA使用的協議是SMTP:Simple Mail Transfer Protocol,後面的MTA到另一個MTA也是用SMTP協議。
收郵件時,MUA和MDA使用的協議有兩種:POP:Post Office Protocol,目前版本是3,俗稱POP3;IMAP:Internet Message Access Protocol,目前版本是4,優點是不但能取郵件,還可以直接操作MDA上存儲的郵件,比如從收件箱移到垃圾箱,等等。
郵件客戶端軟件在發郵件時,會讓你先配置SMTP服務器,也就是你要發到哪個MTA上。假設你正在使用163的郵箱,你就不能直接發到新浪的MTA上,因爲它只服務新浪的用戶,所以,你得填163提供的SMTP服務器地址:smtp.163.com,爲了證明你是163的用戶,SMTP服務器還要求你填寫郵箱地址和郵箱口令,這樣,MUA才能正常地把Email通過SMTP協議發送到MTA。
類似的,從MDA收郵件時,MDA服務器也要求驗證你的郵箱口令,確保不會有人冒充你收取你的郵件,所以,Outlook之類的郵件客戶端會要求你填寫POP3或IMAP服務器地址、郵箱地址和口令,這樣,MUA才能順利地通過POP或IMAP協議從MDA取到郵件。
在使用Python收發郵件前,請先準備好至少兩個電子郵件,如[email protected],[email protected],[email protected]等,注意兩個郵箱不要用同一家郵件服務商。
19.1 SMTP發送郵件
SMTP是發送郵件的協議,Python內置對SMTP的支持,可以發送純文本郵件、HTML郵件以及帶附件的郵件。
Python對SMTP支持有smtplib和email兩個模塊,email負責構造郵件,smtplib負責發送郵件。
首先,我們來構造一個最簡單的純文本郵件:
from email.mime.text import MIMEText
msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')
注意到構造MIMEText對象時,第一個參數就是郵件正文,第二個參數是MIME的subtype,傳入'plain'表示純文本,最終的MIME就是'text/plain',最後一定要用utf-8編碼保證多語言兼容性。
然後,通過SMTP發出去:
# 輸入Email地址和口令:
from_addr = input('From: ')
password = input('Password: ')
# 輸入收件人地址:
to_addr = input('To: ')
# 輸入SMTP服務器地址:
smtp_server = input('SMTP server: ')
import smtplib
server = smtplib.SMTP(smtp_server, 25) # SMTP協議默認端口是25
server.set_debuglevel(1)
server.login(from_addr, password)
server.sendmail(from_addr, [to_addr], msg.as_string())
server.quit()
我們用set_debuglevel(1)就可以打印出和SMTP服務器交互的所有信息。SMTP協議就是簡單的文本命令和響應。login()方法用來登錄SMTP服務器,sendmail()方法就是發郵件,由於可以一次發給多個人,所以傳入一個list,郵件正文是一個str,as_string()把MIMEText對象變成str。
如果一切順利,就可以在收件人信箱中收到我們剛發送的Email:
send-mail
仔細觀察,發現如下問題:
郵件沒有主題;
收件人的名字沒有顯示爲友好的名字,比如Mr Green <[email protected]>;
明明收到了郵件,卻提示不在收件人中。
這是因爲郵件主題、如何顯示發件人、收件人等信息並不是通過SMTP協議發給MTA,而是包含在發給MTA的文本中的,所以,我們必須把From、To和Subject添加到MIMEText中,纔是一封完整的郵件:
from email import encoders
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr, formataddr
import smtplib
def _format_addr(s):
name, addr = parseaddr(s)
return formataddr((Header(name, 'utf-8').encode(), addr))
from_addr = input('From: ')
password = input('Password: ')
to_addr = input('To: ')
smtp_server = input('SMTP server: ')
msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')
msg['From'] = _format_addr('Python愛好者 <%s>' % from_addr)
msg['To'] = _format_addr('管理員 <%s>' % to_addr)
msg['Subject'] = Header('來自SMTP的問候……', 'utf-8').encode()
server = smtplib.SMTP(smtp_server, 25)
server.set_debuglevel(1)
server.login(from_addr, password)
server.sendmail(from_addr, [to_addr], msg.as_string())
server.quit()
我們編寫了一個函數_format_addr()來格式化一個郵件地址。注意不能簡單地傳入name <[email protected]>,因爲如果包含中文,需要通過Header對象進行編碼。
msg['To']接收的是字符串而不是list,如果有多個郵件地址,用,分隔即可。
再發送一遍郵件,就可以在收件人郵箱中看到正確的標題、發件人和收件人:
mail-with-header
你看到的收件人的名字很可能不是我們傳入的管理員,因爲很多郵件服務商在顯示郵件時,會把收件人名字自動替換爲用戶註冊的名字,但是其他收件人名字的顯示不受影響。
如果我們查看Email的原始內容,可以看到如下經過編碼的郵件頭:
From: =?utf-8?b?UHl0aG9u54ix5aW96ICF?= <[email protected]>
To: =?utf-8?b?566h55CG5ZGY?= <[email protected]>
Subject: =?utf-8?b?5p2l6IeqU01UUOeahOmXruWAmeKApuKApg==?=
這就是經過Header對象編碼的文本,包含utf-8編碼信息和Base64編碼的文本。如果我們自己來手動構造這樣的編碼文本,顯然比較複雜。
發送HTML郵件
如果我們要發送HTML郵件,而不是普通的純文本文件怎麼辦?方法很簡單,在構造MIMEText對象時,把HTML字符串傳進去,再把第二個參數由plain變爲html就可以了:
msg = MIMEText('<html><body><h1>Hello</h1>' +
'<p>send by <a href="http://www.python.org">Python</a>...</p>' +
'</body></html>', 'html', 'utf-8')
再發送一遍郵件,你將看到以HTML顯示的郵件:
html-mail
發送附件
如果Email中要加上附件怎麼辦?帶附件的郵件可以看做包含若干部分的郵件:文本和各個附件本身,所以,可以構造一個MIMEMultipart對象代表郵件本身,然後往裏面加上一個MIMEText作爲郵件正文,再繼續往裏面加上表示附件的MIMEBase對象即可:
# 郵件對象:
msg = MIMEMultipart()
msg['From'] = _format_addr('Python愛好者 <%s>' % from_addr)
msg['To'] = _format_addr('管理員 <%s>' % to_addr)
msg['Subject'] = Header('來自SMTP的問候……', 'utf-8').encode()
# 郵件正文是MIMEText:
msg.attach(MIMEText('send with file...', 'plain', 'utf-8'))
# 添加附件就是加上一個MIMEBase,從本地讀取一個圖片:
with open('/Users/michael/Downloads/test.png', 'rb') as f:
# 設置附件的MIME和文件名,這裏是png類型:
mime = MIMEBase('image', 'png', filename='test.png')
# 加上必要的頭信息:
mime.add_header('Content-Disposition', 'attachment', filename='test.png')
mime.add_header('Content-ID', '<0>')
mime.add_header('X-Attachment-Id', '0')
# 把附件的內容讀進來:
mime.set_payload(f.read())
# 用Base64編碼:
encoders.encode_base64(mime)
# 添加到MIMEMultipart:
msg.attach(mime)
然後,按正常發送流程把msg(注意類型已變爲MIMEMultipart)發送出去,就可以收到如下帶附件的郵件:
mimemultipart
發送圖片
如果要把一個圖片嵌入到郵件正文中怎麼做?直接在HTML郵件中鏈接圖片地址行不行?答案是,大部分郵件服務商都會自動屏蔽帶有外鏈的圖片,因爲不知道這些鏈接是否指向惡意網站。
要把圖片嵌入到郵件正文中,我們只需按照發送附件的方式,先把郵件作爲附件添加進去,然後,在HTML中通過引用src="cid:0"就可以把附件作爲圖片嵌入了。如果有多個圖片,給它們依次編號,然後引用不同的cid:x即可。
把上面代碼加入MIMEMultipart的MIMEText從plain改爲html,然後在適當的位置引用圖片:
msg.attach(MIMEText('<html><body><h1>Hello</h1>' +
'<p><img src="cid:0"></p>' +
'</body></html>', 'html', 'utf-8'))
再次發送,就可以看到圖片直接嵌入到郵件正文的效果:
email-inline-image
【1、MIMEMultipart定義出錯
msg = MIMEMultipart()
NameError: name 'MIMEMultipart' is not defined
需要在代碼前加
from email.mime.multipart import MIMEMultipart
2、MIMIBase定義出錯
mime = MIMIBase('image','png',filename='1.png')
NameError: name 'MIMIBase' is not defined
需要在代碼前加:
from email.mime.base import MIMEBase
】
4、同時支持HTML和Plain格式
如果我們發送HTML郵件,收件人通過瀏覽器或者Outlook之類的軟件是可以正常瀏覽郵件內容的,但是,如果收件人使用的設備太古老,查看不了HTML郵件怎麼辦?
辦法是在發送HTML的同時再附加一個純文本,如果收件人無法查看HTML格式的郵件,就可以自動降級查看純文本郵件。
利用MIMEMultipart就可以組合一個HTML和Plain,要注意指定subtype是alternative:
msg = MIMEMultipart('alternative')
msg['From'] = ...
msg['To'] = ...
msg['Subject'] = ...
msg.attach(MIMEText('hello', 'plain', 'utf-8'))
msg.attach(MIMEText('<html><body><h1>Hello</h1></body></html>', 'html', 'utf-8'))
# 正常發送msg對象...
加密SMTP
使用標準的25端口連接SMTP服務器時,使用的是明文傳輸,發送郵件的整個過程可能會被竊聽。要更安全地發送郵件,可以加密SMTP會話,實際上就是先創建SSL安全連接,然後再使用SMTP協議發送郵件。
某些郵件服務商,例如Gmail,提供的SMTP服務必須要加密傳輸。我們來看看如何通過Gmail提供的安全SMTP發送郵件。
必須知道,Gmail的SMTP端口是587,因此,修改代碼如下:
smtp_server = 'smtp.gmail.com'
smtp_port = 587
server = smtplib.SMTP(smtp_server, smtp_port)
server.starttls()
# 剩下的代碼和前面的一模一樣:
server.set_debuglevel(1)
...
只需要在創建SMTP對象後,立刻調用starttls()方法,就創建了安全連接。後面的代碼和前面的發送郵件代碼完全一樣。
如果因爲網絡問題無法連接Gmail的SMTP服務器,請相信我們的代碼是沒有問題的,你需要對你的網絡設置做必要的調整。
【小結】
使用Python的smtplib發送郵件十分簡單,只要掌握了各種郵件類型的構造方法,正確設置好郵件頭,就可以順利發出。
構造一個郵件對象就是一個Messag對象,如果構造一個MIMEText對象,就表示一個文本郵件對象,如果構造一個MIMEImage對象,就表示一個作爲附件的圖片,要把多個對象組合起來,就用MIMEMultipart對象,而MIMEBase可以表示任何對象。它們的繼承關係如下:
Message
+- MIMEBase
+- MIMEMultipart
+- MIMENonMultipart
+- MIMEMessage
+- MIMEText
+- MIMEImage
這種嵌套關係就可以構造出任意複雜的郵件。你可以通過email.mime文檔查看它們所在的包以及詳細的用法。
參考源碼
19.2 POP3接收郵件
SMTP用於發送郵件,如果要收取郵件呢?
收取郵件就是編寫一個MUA作爲客戶端,從MDA把郵件獲取到用戶的電腦或者手機上。收取郵件最常用的協議是POP協議,目前版本號是3,俗稱POP3。
Python內置一個poplib模塊,實現了POP3協議,可以直接用來收郵件。
注意到POP3協議收取的不是一個已經可以閱讀的郵件本身,而是郵件的原始文本,這和SMTP協議很像,SMTP發送的也是經過編碼後的一大段文本。
要把POP3收取的文本變成可以閱讀的郵件,還需要用email模塊提供的各種類來解析原始文本,變成可閱讀的郵件對象。
所以,收取郵件分兩步:
第一步:用poplib把郵件的原始文本下載到本地;
第二步:用email解析原始文本,還原爲郵件對象。
1、通過POP3下載郵件
POP3協議本身很簡單,以下面的代碼爲例,我們來獲取最新的一封郵件內容:
import poplib
# 輸入郵件地址, 口令和POP3服務器地址:
email = input('Email: ')
password = input('Password: ')
pop3_server = input('POP3 server: ')
# 連接到POP3服務器:
server = poplib.POP3(pop3_server)
# 可以打開或關閉調試信息:
server.set_debuglevel(1)
# 可選:打印POP3服務器的歡迎文字:
print(server.getwelcome().decode('utf-8'))
# 身份認證:
server.user(email)
server.pass_(password)
# stat()返回郵件數量和佔用空間:
print('Messages: %s. Size: %s' % server.stat())
# list()返回所有郵件的編號:
resp, mails, octets = server.list()
# 可以查看返回的列表類似[b'1 82923', b'2 2184', ...]
print(mails)
# 獲取最新一封郵件, 注意索引號從1開始:
index = len(mails)
resp, lines, octets = server.retr(index)
# lines存儲了郵件的原始文本的每一行,
# 可以獲得整個郵件的原始文本:
msg_content = b'\r\n'.join(lines).decode('utf-8')
# 稍後解析出郵件:
msg = Parser().parsestr(msg_content)
# 可以根據郵件索引號直接從服務器刪除郵件:
# server.dele(index)
# 關閉連接:
server.quit()
用POP3獲取郵件其實很簡單,要獲取所有郵件,只需要循環使用retr()把每一封郵件內容拿到即可。真正麻煩的是把郵件的原始內容解析爲可以閱讀的郵件對象。
解析郵件
解析郵件的過程和上一節構造郵件正好相反,因此,先導入必要的模塊:
from email.parser import Parser
from email.header import decode_header
from email.utils import parseaddr
import poplib
只需要一行代碼就可以把郵件內容解析爲Message對象:
msg = Parser().parsestr(msg_content)
但是這個Message對象本身可能是一個MIMEMultipart對象,即包含嵌套的其他MIMEBase對象,嵌套可能還不止一層。
所以我們要遞歸地打印出Message對象的層次結構:
# indent用於縮進顯示:
def print_info(msg, indent=0):
if indent == 0:
for header in ['From', 'To', 'Subject']:
value = msg.get(header, '')
if value:
if header=='Subject':
value = decode_str(value)
else:
hdr, addr = parseaddr(value)
name = decode_str(hdr)
value = u'%s <%s>' % (name, addr)
print('%s%s: %s' % (' ' * indent, header, value))
if (msg.is_multipart()):
parts = msg.get_payload()
for n, part in enumerate(parts):
print('%spart %s' % (' ' * indent, n))
print('%s--------------------' % (' ' * indent))
print_info(part, indent + 1)
else:
content_type = msg.get_content_type()
if content_type=='text/plain' or content_type=='text/html':
content = msg.get_payload(decode=True)
charset = guess_charset(msg)
if charset:
content = content.decode(charset)
print('%sText: %s' % (' ' * indent, content + '...'))
else:
print('%sAttachment: %s' % (' ' * indent, content_type))
郵件的Subject或者Email中包含的名字都是經過編碼後的str,要正常顯示,就必須decode:
def decode_str(s):
value, charset = decode_header(s)[0]
if charset:
value = value.decode(charset)
return value
decode_header()返回一個list,因爲像Cc、Bcc這樣的字段可能包含多個郵件地址,所以解析出來的會有多個元素。上面的代碼我們偷了個懶,只取了第一個元素。
文本郵件的內容也是str,還需要檢測編碼,否則,非UTF-8編碼的郵件都無法正常顯示:
def guess_charset(msg):
charset = msg.get_charset()
if charset is None:
content_type = msg.get('Content-Type', '').lower()
pos = content_type.find('charset=')
if pos >= 0:
charset = content_type[pos + 8:].strip()
return charset
把上面的代碼整理好,我們就可以來試試收取一封郵件。先往自己的郵箱發一封郵件,然後用瀏覽器登錄郵箱,看看郵件收到沒,如果收到了,我們就來用Python程序把它收到本地:
pop3-sample-mail
運行程序,結果如下:
+OK Welcome to coremail Mail Pop3 Server (163coms[...])
Messages: 126. Size: 27228317
From: Test <[email protected]>
To: Python愛好者 <[email protected]>
Subject: 用POP3收取郵件
part 0
--------------------
part 0
--------------------
Text: Python可以使用POP3收取郵件……...
part 1
--------------------
Text: Python可以<a href="...">使用POP3</a>收取郵件……...
part 1
--------------------
Attachment: application/octet-stream
我們從打印的結構可以看出,這封郵件是一個MIMEMultipart,它包含兩部分:第一部分又是一個MIMEMultipart,第二部分是一個附件。而內嵌的MIMEMultipart是一個alternative類型,它包含一個純文本格式的MIMEText和一個HTML格式的MIMEText。
【小結】
用Python的poplib模塊收取郵件分兩步:第一步是用POP3協議把郵件獲取到本地,第二步是用email模塊把原始郵件解析爲Message對象,然後,用適當的形式把郵件內容展示給用戶即可。