廖雪峯《python3 基礎教程》讀書筆記——第十九章 電子郵件

第十九章 電子郵件

MUA:mail user agent——郵件用戶代理

MTA:mail transfer agent——郵件傳輸代理

MDA:mail delivery agent——郵件投遞代理

1、email郵件處理流程

假設我們自己的郵件地址是[email protected],對方郵件地址是[email protected]

1)用outlook或foamail寫好郵件,填上對方地址,點擊發送,電子郵件就發送了出去。這些電子郵件軟件被稱爲MUA

2)email從MUA發出去,不是直接到達對方電腦,而是發送到MTA,即email服務提供商,如網易、新浪等。由於我們自己的電子郵件是163.com,所以email首先被投遞到網易提供的MTA,再由網易的MTA發送到對方服務商,即新浪MTA

3)email到達新浪MTA後,由於對方是用的是@sina.com的郵箱,新浪MTA會把email投遞到最終目的地MDA。Email到達MDA後,就靜靜的躺在新浪的某個服務器上,存放在某個文件或特殊的數據庫裏,將這個長期保存郵件的地方稱爲電子郵箱。

4)email不會直接到達對方的電腦,因爲對方電腦不一定開機,開機也不一定聯網。對方要取到郵件,必須通過MUA從MDA上把郵件取到自己的電腦上。

一封電子郵件的流程就是:

發件人->MUA->MTA->MTA->若干個MTA->MDA<-MUA<-收件人

2、要編寫程序來發送和接收郵件,本質上就是:

1)編寫MUA把郵件發送到MTA

2)編寫MUA從MDA上收郵件

發郵件時,MUA和MTA使用的協議是SMTP:Simple Mail Transfer Protocol,後面的MTA到另一個MTA也是用SMTP協議。

收郵件時,MUA和MDA使用的協議有兩種:POP:Post Office Protocol,目前版本是3,俗稱POP3;IMAP:Internet Message Access Protocol,目前版本是4,優點是不但能取郵件,還可以直接操作MDA上存儲的郵件,比如從收件箱移到垃圾箱,等等。

郵件客戶端軟件在發郵件時,會讓你先配置SMTP服務器,也就是你要發到哪個MTA上。假設你正在使用163的郵箱,你就不能直接發到新浪的MTA上,因爲它只服務新浪的用戶,所以,你得填163提供的SMTP服務器地址:smtp.163.com,爲了證明你是163的用戶,SMTP服務器還要求你填寫郵箱地址和郵箱口令,這樣,MUA才能正常地把Email通過SMTP協議發送到MTA。

類似的,從MDA收郵件時,MDA服務器也要求驗證你的郵箱口令,確保不會有人冒充你收取你的郵件,所以,Outlook之類的郵件客戶端會要求你填寫POP3或IMAP服務器地址、郵箱地址和口令,這樣,MUA才能順利地通過POP或IMAP協議從MDA取到郵件。

在使用Python收發郵件前,請先準備好至少兩個電子郵件,如[email protected][email protected][email protected]等,注意兩個郵箱不要用同一家郵件服務商。

19.1 SMTP發送郵件

SMTP是發送郵件的協議,Python內置對SMTP的支持,可以發送純文本郵件、HTML郵件以及帶附件的郵件。

Python對SMTP支持有smtplib和email兩個模塊,email負責構造郵件,smtplib負責發送郵件。

首先,我們來構造一個最簡單的純文本郵件:

from email.mime.text import MIMEText

msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')

注意到構造MIMEText對象時,第一個參數就是郵件正文,第二個參數是MIME的subtype,傳入'plain'表示純文本,最終的MIME就是'text/plain',最後一定要用utf-8編碼保證多語言兼容性。

然後,通過SMTP發出去:

# 輸入Email地址和口令:

from_addr = input('From: ')

password = input('Password: ')

# 輸入收件人地址:

to_addr = input('To: ')

# 輸入SMTP服務器地址:

smtp_server = input('SMTP server: ')

import smtplib

server = smtplib.SMTP(smtp_server, 25) # SMTP協議默認端口是25

server.set_debuglevel(1)

server.login(from_addr, password)

server.sendmail(from_addr, [to_addr], msg.as_string())

server.quit()

我們用set_debuglevel(1)就可以打印出和SMTP服務器交互的所有信息。SMTP協議就是簡單的文本命令和響應。login()方法用來登錄SMTP服務器,sendmail()方法就是發郵件,由於可以一次發給多個人,所以傳入一個list,郵件正文是一個str,as_string()把MIMEText對象變成str。

如果一切順利,就可以在收件人信箱中收到我們剛發送的Email:

send-mail

仔細觀察,發現如下問題:

郵件沒有主題;

收件人的名字沒有顯示爲友好的名字,比如Mr Green <[email protected]>;

明明收到了郵件,卻提示不在收件人中。

這是因爲郵件主題、如何顯示發件人、收件人等信息並不是通過SMTP協議發給MTA,而是包含在發給MTA的文本中的,所以,我們必須把From、To和Subject添加到MIMEText中,纔是一封完整的郵件:

from email import encoders

from email.header import Header

from email.mime.text import MIMEText

from email.utils import parseaddr, formataddr

import smtplib

def _format_addr(s):

    name, addr = parseaddr(s)

    return formataddr((Header(name, 'utf-8').encode(), addr))

from_addr = input('From: ')

password = input('Password: ')

to_addr = input('To: ')

smtp_server = input('SMTP server: ')

msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')

msg['From'] = _format_addr('Python愛好者 <%s>' % from_addr)

msg['To'] = _format_addr('管理員 <%s>' % to_addr)

msg['Subject'] = Header('來自SMTP的問候……', 'utf-8').encode()

server = smtplib.SMTP(smtp_server, 25)

server.set_debuglevel(1)

server.login(from_addr, password)

server.sendmail(from_addr, [to_addr], msg.as_string())

server.quit()

我們編寫了一個函數_format_addr()來格式化一個郵件地址。注意不能簡單地傳入name <[email protected]>,因爲如果包含中文,需要通過Header對象進行編碼。

msg['To']接收的是字符串而不是list,如果有多個郵件地址,用,分隔即可。

再發送一遍郵件,就可以在收件人郵箱中看到正確的標題、發件人和收件人:

mail-with-header

你看到的收件人的名字很可能不是我們傳入的管理員,因爲很多郵件服務商在顯示郵件時,會把收件人名字自動替換爲用戶註冊的名字,但是其他收件人名字的顯示不受影響。

如果我們查看Email的原始內容,可以看到如下經過編碼的郵件頭:

From: =?utf-8?b?UHl0aG9u54ix5aW96ICF?= <[email protected]>

To: =?utf-8?b?566h55CG5ZGY?= <[email protected]>

Subject: =?utf-8?b?5p2l6IeqU01UUOeahOmXruWAmeKApuKApg==?=

這就是經過Header對象編碼的文本,包含utf-8編碼信息和Base64編碼的文本。如果我們自己來手動構造這樣的編碼文本,顯然比較複雜。

發送HTML郵件

如果我們要發送HTML郵件,而不是普通的純文本文件怎麼辦?方法很簡單,在構造MIMEText對象時,把HTML字符串傳進去,再把第二個參數由plain變爲html就可以了:

msg = MIMEText('<html><body><h1>Hello</h1>' +

    '<p>send by <a href="http://www.python.org">Python</a>...</p>' +

    '</body></html>', 'html', 'utf-8')

再發送一遍郵件,你將看到以HTML顯示的郵件:

html-mail

發送附件

如果Email中要加上附件怎麼辦?帶附件的郵件可以看做包含若干部分的郵件:文本和各個附件本身,所以,可以構造一個MIMEMultipart對象代表郵件本身,然後往裏面加上一個MIMEText作爲郵件正文,再繼續往裏面加上表示附件的MIMEBase對象即可:

# 郵件對象:

msg = MIMEMultipart()

msg['From'] = _format_addr('Python愛好者 <%s>' % from_addr)

msg['To'] = _format_addr('管理員 <%s>' % to_addr)

msg['Subject'] = Header('來自SMTP的問候……', 'utf-8').encode()

# 郵件正文是MIMEText:

msg.attach(MIMEText('send with file...', 'plain', 'utf-8'))

# 添加附件就是加上一個MIMEBase,從本地讀取一個圖片:

with open('/Users/michael/Downloads/test.png', 'rb') as f:

    # 設置附件的MIME和文件名,這裏是png類型:

    mime = MIMEBase('image', 'png', filename='test.png')

    # 加上必要的頭信息:

    mime.add_header('Content-Disposition', 'attachment', filename='test.png')

    mime.add_header('Content-ID', '<0>')

    mime.add_header('X-Attachment-Id', '0')

    # 把附件的內容讀進來:

    mime.set_payload(f.read())

    # 用Base64編碼:

    encoders.encode_base64(mime)

    # 添加到MIMEMultipart:

    msg.attach(mime)

然後,按正常發送流程把msg(注意類型已變爲MIMEMultipart)發送出去,就可以收到如下帶附件的郵件:

mimemultipart

發送圖片

如果要把一個圖片嵌入到郵件正文中怎麼做?直接在HTML郵件中鏈接圖片地址行不行?答案是,大部分郵件服務商都會自動屏蔽帶有外鏈的圖片,因爲不知道這些鏈接是否指向惡意網站。

要把圖片嵌入到郵件正文中,我們只需按照發送附件的方式,先把郵件作爲附件添加進去,然後,在HTML中通過引用src="cid:0"就可以把附件作爲圖片嵌入了。如果有多個圖片,給它們依次編號,然後引用不同的cid:x即可。

 

把上面代碼加入MIMEMultipart的MIMEText從plain改爲html,然後在適當的位置引用圖片:

msg.attach(MIMEText('<html><body><h1>Hello</h1>' +

    '<p><img src="cid:0"></p>' +

    '</body></html>', 'html', 'utf-8'))

再次發送,就可以看到圖片直接嵌入到郵件正文的效果:

email-inline-image

1、MIMEMultipart定義出錯

    msg = MIMEMultipart()

NameError: name 'MIMEMultipart' is not defined

需要在代碼前加

from email.mime.multipart import MIMEMultipart

2、MIMIBase定義出錯

    mime = MIMIBase('image','png',filename='1.png')

NameError: name 'MIMIBase' is not defined

需要在代碼前加:

from email.mime.base import MIMEBase

4、同時支持HTML和Plain格式

如果我們發送HTML郵件,收件人通過瀏覽器或者Outlook之類的軟件是可以正常瀏覽郵件內容的,但是,如果收件人使用的設備太古老,查看不了HTML郵件怎麼辦?

辦法是在發送HTML的同時再附加一個純文本,如果收件人無法查看HTML格式的郵件,就可以自動降級查看純文本郵件。

利用MIMEMultipart就可以組合一個HTML和Plain,要注意指定subtype是alternative:

msg = MIMEMultipart('alternative')

msg['From'] = ...

msg['To'] = ...

msg['Subject'] = ...

msg.attach(MIMEText('hello', 'plain', 'utf-8'))

msg.attach(MIMEText('<html><body><h1>Hello</h1></body></html>', 'html', 'utf-8'))

# 正常發送msg對象...

加密SMTP

使用標準的25端口連接SMTP服務器時,使用的是明文傳輸,發送郵件的整個過程可能會被竊聽。要更安全地發送郵件,可以加密SMTP會話,實際上就是先創建SSL安全連接,然後再使用SMTP協議發送郵件。

某些郵件服務商,例如Gmail,提供的SMTP服務必須要加密傳輸。我們來看看如何通過Gmail提供的安全SMTP發送郵件。

必須知道,Gmail的SMTP端口是587,因此,修改代碼如下:

smtp_server = 'smtp.gmail.com'

smtp_port = 587

server = smtplib.SMTP(smtp_server, smtp_port)

server.starttls()

# 剩下的代碼和前面的一模一樣:

server.set_debuglevel(1)

...

只需要在創建SMTP對象後,立刻調用starttls()方法,就創建了安全連接。後面的代碼和前面的發送郵件代碼完全一樣。

如果因爲網絡問題無法連接Gmail的SMTP服務器,請相信我們的代碼是沒有問題的,你需要對你的網絡設置做必要的調整。

【小結】

使用Python的smtplib發送郵件十分簡單,只要掌握了各種郵件類型的構造方法,正確設置好郵件頭,就可以順利發出。

構造一個郵件對象就是一個Messag對象,如果構造一個MIMEText對象,就表示一個文本郵件對象,如果構造一個MIMEImage對象,就表示一個作爲附件的圖片,要把多個對象組合起來,就用MIMEMultipart對象,而MIMEBase可以表示任何對象。它們的繼承關係如下:

Message

+- MIMEBase

   +- MIMEMultipart

   +- MIMENonMultipart

      +- MIMEMessage

      +- MIMEText

      +- MIMEImage

這種嵌套關係就可以構造出任意複雜的郵件。你可以通過email.mime文檔查看它們所在的包以及詳細的用法。

參考源碼

 

19.2 POP3接收郵件

SMTP用於發送郵件,如果要收取郵件呢?

收取郵件就是編寫一個MUA作爲客戶端,從MDA把郵件獲取到用戶的電腦或者手機上。收取郵件最常用的協議是POP協議,目前版本號是3,俗稱POP3。

Python內置一個poplib模塊,實現了POP3協議,可以直接用來收郵件。

注意到POP3協議收取的不是一個已經可以閱讀的郵件本身,而是郵件的原始文本,這和SMTP協議很像,SMTP發送的也是經過編碼後的一大段文本。

要把POP3收取的文本變成可以閱讀的郵件,還需要用email模塊提供的各種類來解析原始文本,變成可閱讀的郵件對象。

所以,收取郵件分兩步:

第一步:用poplib把郵件的原始文本下載到本地;

第二步:用email解析原始文本,還原爲郵件對象。

1、通過POP3下載郵件

POP3協議本身很簡單,以下面的代碼爲例,我們來獲取最新的一封郵件內容:

import poplib

# 輸入郵件地址, 口令和POP3服務器地址:

email = input('Email: ')

password = input('Password: ')

pop3_server = input('POP3 server: ')

# 連接到POP3服務器:

server = poplib.POP3(pop3_server)

# 可以打開或關閉調試信息:

server.set_debuglevel(1)

# 可選:打印POP3服務器的歡迎文字:

print(server.getwelcome().decode('utf-8'))

# 身份認證:

server.user(email)

server.pass_(password)

# stat()返回郵件數量和佔用空間:

print('Messages: %s. Size: %s' % server.stat())

# list()返回所有郵件的編號:

resp, mails, octets = server.list()

# 可以查看返回的列表類似[b'1 82923', b'2 2184', ...]

print(mails)

# 獲取最新一封郵件, 注意索引號從1開始:

index = len(mails)

resp, lines, octets = server.retr(index)

# lines存儲了郵件的原始文本的每一行,

# 可以獲得整個郵件的原始文本:

msg_content = b'\r\n'.join(lines).decode('utf-8')

# 稍後解析出郵件:

msg = Parser().parsestr(msg_content)

# 可以根據郵件索引號直接從服務器刪除郵件:

# server.dele(index)

# 關閉連接:

server.quit()

POP3獲取郵件其實很簡單,要獲取所有郵件,只需要循環使用retr()把每一封郵件內容拿到即可。真正麻煩的是把郵件的原始內容解析爲可以閱讀的郵件對象。

解析郵件

解析郵件的過程和上一節構造郵件正好相反,因此,先導入必要的模塊:

from email.parser import Parser

from email.header import decode_header

from email.utils import parseaddr

import poplib

只需要一行代碼就可以把郵件內容解析爲Message對象:

 

msg = Parser().parsestr(msg_content)

但是這個Message對象本身可能是一個MIMEMultipart對象,即包含嵌套的其他MIMEBase對象,嵌套可能還不止一層。

所以我們要遞歸地打印出Message對象的層次結構:

# indent用於縮進顯示:

def print_info(msg, indent=0):

    if indent == 0:

        for header in ['From', 'To', 'Subject']:

            value = msg.get(header, '')

            if value:

                if header=='Subject':

                    value = decode_str(value)

                else:

                    hdr, addr = parseaddr(value)

                    name = decode_str(hdr)

                    value = u'%s <%s>' % (name, addr)

            print('%s%s: %s' % ('  ' * indent, header, value))

    if (msg.is_multipart()):

        parts = msg.get_payload()

        for n, part in enumerate(parts):

            print('%spart %s' % ('  ' * indent, n))

            print('%s--------------------' % ('  ' * indent))

            print_info(part, indent + 1)

    else:

        content_type = msg.get_content_type()

        if content_type=='text/plain' or content_type=='text/html':

            content = msg.get_payload(decode=True)

            charset = guess_charset(msg)

            if charset:

                content = content.decode(charset)

            print('%sText: %s' % ('  ' * indent, content + '...'))

        else:

            print('%sAttachment: %s' % ('  ' * indent, content_type))

郵件的Subject或者Email中包含的名字都是經過編碼後的str,要正常顯示,就必須decode:

def decode_str(s):

    value, charset = decode_header(s)[0]

    if charset:

        value = value.decode(charset)

    return value

decode_header()返回一個list,因爲像Cc、Bcc這樣的字段可能包含多個郵件地址,所以解析出來的會有多個元素。上面的代碼我們偷了個懶,只取了第一個元素。

文本郵件的內容也是str,還需要檢測編碼,否則,非UTF-8編碼的郵件都無法正常顯示:

def guess_charset(msg):

    charset = msg.get_charset()

    if charset is None:

        content_type = msg.get('Content-Type', '').lower()

        pos = content_type.find('charset=')

        if pos >= 0:

            charset = content_type[pos + 8:].strip()

    return charset

把上面的代碼整理好,我們就可以來試試收取一封郵件。先往自己的郵箱發一封郵件,然後用瀏覽器登錄郵箱,看看郵件收到沒,如果收到了,我們就來用Python程序把它收到本地:

pop3-sample-mail

 

運行程序,結果如下:

+OK Welcome to coremail Mail Pop3 Server (163coms[...])

Messages: 126. Size: 27228317

From: Test <[email protected]>

To: Python愛好者 <[email protected]>

Subject: 用POP3收取郵件

part 0

--------------------

  part 0

  --------------------

    Text: Python可以使用POP3收取郵件……...

  part 1

  --------------------

    Text: Python可以<a href="...">使用POP3</a>收取郵件……...

part 1

--------------------

  Attachment: application/octet-stream

我們從打印的結構可以看出,這封郵件是一個MIMEMultipart,它包含兩部分:第一部分又是一個MIMEMultipart,第二部分是一個附件。而內嵌的MIMEMultipart是一個alternative類型,它包含一個純文本格式的MIMEText和一個HTML格式的MIMEText。

【小結】

Python的poplib模塊收取郵件分兩步:第一步是用POP3協議把郵件獲取到本地,第二步是用email模塊把原始郵件解析爲Message對象,然後,用適當的形式把郵件內容展示給用戶即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章