第二十章 訪問數據庫
程序運行的時候,數據都是在內存中的。當程序終止的時候,通常都需要將數據保存到磁盤上,無論是保存到本地磁盤,還是通過網絡保存到服務器上,最終都會將數據寫入磁盤文件。
而如何定義數據的存儲格式就是一個大問題。如果我們自己來定義存儲格式,比如保存一個班級所有學生的成績單:
名字 成績
Michael 99
Bob 85
Bart 59
Lisa 87
你可以用一個文本文件保存,一行保存一個學生,用,隔開:
Michael,99
Bob,85
Bart,59
Lisa,87
你還可以用JSON格式保存,也是文本文件:
[
{"name":"Michael","score":99},
{"name":"Bob","score":85},
{"name":"Bart","score":59},
{"name":"Lisa","score":87}
]
你還可以定義各種保存格式,但是問題來了:
(1)存儲和讀取需要自己實現,JSON還是標準,自己定義的格式就各式各樣了;
(2)不能做快速查詢,只有把數據全部讀到內存中才能自己遍歷,但有時候數據的大小遠遠超過了內存(比如藍光電影,40GB的數據),根本無法全部讀入內存。
爲了便於程序保存和讀取數據,而且,能直接通過條件快速查詢到指定的數據,就出現了數據庫(Database)這種專門用於集中存儲和查詢的軟件。
數據庫軟件誕生的歷史非常久遠,早在1950年數據庫就誕生了。經歷了網狀數據庫,層次數據庫,我們現在廣泛使用的關係數據庫是20世紀70年代基於關係模型的基礎上誕生的。
關係模型有一套複雜的數學理論,但是從概念上是十分容易理解的。舉個學校的例子:
假設某個XX省YY市ZZ縣第一實驗小學有3個年級,要表示出這3個年級,可以在Excel中用一個表格畫出來:
每個年級又有若干個班級,要把所有班級表示出來,可以在Excel中再畫一個表格:
這兩個表格有個映射關係,就是根據Grade_ID可以在班級表中查找到對應的所有班級:
也就是Grade表的每一行對應Class表的多行,在關係數據庫中,這種基於表(Table)的一對多的關係就是關係數據庫的基礎。
根據某個年級的ID就可以查找所有班級的行,這種查詢語句在關係數據庫中稱爲SQL語句,可以寫成:
SELECT * FROM classes WHERE grade_id = '1';
結果也是一個表:
---------+----------+----------
grade_id | class_id | name
---------+----------+----------
1 | 11 | 一年級一班
---------+----------+----------
1 | 12 | 一年級二班
---------+----------+----------
1 | 13 | 一年級三班
---------+----------+----------
類似的,Class表的一行記錄又可以關聯到Student表的多行記錄:
由於本教程不涉及到關係數據庫的詳細內容,如果你想從零學習關係數據庫和基本的SQL語句,如果你想從零學習關係數據庫和基本的SQL語句,請自行搜索相關課程。
NoSQL
你也許還聽說過NoSQL數據庫,很多NoSQL宣傳其速度和規模遠遠超過關係數據庫,所以很多同學覺得有了NoSQL是否就不需要SQL了呢?千萬不要被他們忽悠了,連SQL都不明白怎麼可能搞明白NoSQL呢?
數據庫類別
既然我們要使用關係數據庫,就必須選擇一個關係數據庫。目前廣泛使用的關係數據庫也就這麼幾種:
付費的商用數據庫:
Oracle,典型的高富帥;
SQL Server,微軟自家產品,Windows定製專款;
DB2,IBM的產品,聽起來挺高端;
Sybase,曾經跟微軟是好基友,後來關係破裂,現在家境慘淡。
這些數據庫都是不開源而且付費的,最大的好處是花了錢出了問題可以找廠家解決,不過在Web的世界裏,常常需要部署成千上萬的數據庫服務器,當然不能把大把大把的銀子扔給廠家,所以,無論是Google、Facebook,還是國內的BAT,無一例外都選擇了免費的開源數據庫:
MySQL,大家都在用,一般錯不了;
PostgreSQL,學術氣息有點重,其實挺不錯,但知名度沒有MySQL高;
sqlite,嵌入式數據庫,適合桌面和移動應用。
作爲Python開發工程師,選擇哪個免費數據庫呢?當然是MySQL。因爲MySQL普及率最高,出了錯,可以很容易找到解決方法。而且,圍繞MySQL有一大堆監控和運維的工具,安裝和使用很方便。
爲了能繼續後面的學習,你需要從MySQL官方網站下載並安裝MySQL Community Server 5.6,這個版本是免費的,其他高級版本是要收錢的(請放心,收錢的功能我們用不上)。
20.1 sqlite
SQLite是一種嵌入式數據庫,它的數據庫就是一個文件。由於SQLite本身是C寫的,而且體積很小,所以,經常被集成到各種應用程序中,甚至在iOS和Android的App中都可以集成。
Python就內置了SQLite3,所以,在Python中使用SQLite,不需要安裝任何東西,直接使用。
在使用SQLite前,我們先要搞清楚幾個概念:
表是數據庫中存放關係數據的集合,一個數據庫裏面通常都包含多個表,比如學生的表,班級的表,學校的表,等等。表和表之間通過外鍵關聯。
要操作關係數據庫,首先需要連接到數據庫,一個數據庫連接稱爲Connection;
連接到數據庫後,需要打開遊標,稱之爲Cursor,通過Cursor執行SQL語句,然後,獲得執行結果。
Python定義了一套操作數據庫的API接口,任何數據庫要連接到Python,只需要提供符合Python標準的數據庫驅動即可。
由於SQLite的驅動內置在Python標準庫中,所以我們可以直接來操作SQLite數據庫。
我們在Python交互式命令行實踐一下:
# 導入SQLite驅動:
>>> import sqlite3
# 連接到SQLite數據庫
# 數據庫文件是test.db
# 如果文件不存在,會自動在當前目錄創建:
>>> conn = sqlite3.connect('test.db')
# 創建一個Cursor:
>>> cursor = conn.cursor()
# 執行一條SQL語句,創建user表:
>>> cursor.execute('create table user (id varchar(20) primary key, name varchar(20))')
<sqlite3.Cursor object at 0x10f8aa260>
# 繼續執行一條SQL語句,插入一條記錄:
>>> cursor.execute('insert into user (id, name) values (\'1\', \'Michael\')')
<sqlite3.Cursor object at 0x10f8aa260>
# 通過rowcount獲得插入的行數:
>>> cursor.rowcount
1
# 關閉Cursor:
>>> cursor.close()
# 提交事務:
>>> conn.commit()
# 關閉Connection:
>>> conn.close()
我們再試試查詢記錄:
>>> conn = sqlite3.connect('test.db')
>>> cursor = conn.cursor()
# 執行查詢語句:
>>> cursor.execute('select * from user where id=?', ('1',))
<sqlite3.Cursor object at 0x10f8aa340>
# 獲得查詢結果集:
>>> values = cursor.fetchall()
>>> values
[('1', 'Michael')]
>>> cursor.close()
>>> conn.close()
使用Python的DB-API時,只要搞清楚Connection和Cursor對象,打開後一定記得關閉,就可以放心地使用。
使用Cursor對象執行insert,update,delete語句時,執行結果由rowcount返回影響的行數,就可以拿到執行結果。
使用Cursor對象執行select語句時,通過featchall()可以拿到結果集。結果集是一個list,每個元素都是一個tuple,對應一行記錄。
如果SQL語句帶有參數,那麼需要把參數按照位置傳遞給execute()方法,有幾個?佔位符就必須對應幾個參數,例如:
cursor.execute('select * from user where name=? and pwd=?', ('abc', 'password'))
SQLite支持常見的標準SQL語句以及幾種常見的數據類型。具體文檔請參閱SQLite官方網站。
【小結】
在Python中操作數據庫時,要先導入數據庫對應的驅動,然後,通過Connection對象和Cursor對象操作數據。
要確保打開的Connection對象和Cursor對象都正確地被關閉,否則,資源就會泄露。
如何才能確保出錯的情況下也關閉掉Connection對象和Cursor對象呢?請回憶try:...except:...finally:...的用法。
20.2 MySQL
MySQL是Web世界中使用最廣泛的數據庫服務器。SQLite的特點是輕量級、可嵌入,但不能承受高併發訪問,適合桌面和移動應用。而MySQL是爲服務器端設計的數據庫,能承受高併發訪問,同時佔用的內存也遠遠大於SQLite。
此外,MySQL內部有多種數據庫引擎,最常用的引擎是支持數據庫事務的InnoDB。
1、安裝MySQL
可以直接從MySQL官方網站下載最新的Community Server 5.6.x版本。MySQL是跨平臺的,選擇對應的平臺下載安裝文件,安裝即可。
安裝時,MySQL會提示輸入root用戶的口令,請務必記清楚。如果怕記不住,就把口令設置爲password。
在Windows上,安裝時請選擇UTF-8編碼,以便正確地處理中文。
在Mac或Linux上,需要編輯MySQL的配置文件,把數據庫默認的編碼全部改爲UTF-8。MySQL的配置文件默認存放在/etc/my.cnf或者/etc/mysql/my.cnf:
[client]
default-character-set = utf8
[mysqld]
default-storage-engine = INNODB
character-set-server = utf8
collation-server = utf8_general_ci
重啓MySQL後,可以通過MySQL的客戶端命令行檢查編碼:
$ mysql -u root -p
Enter password:
Welcome to the MySQL monitor...
...
mysql> show variables like '%char%';
+--------------------------+-------------------------------| Variable_name | Value
| character_set_client | utf8
| character_set_connection | utf8
| character_set_database | utf8
| character_set_filesystem | binary
| character_set_results | utf8
| character_set_server | utf8
| character_set_system | utf8
| character_sets_dir | /usr/local/mysql-5.1.65-osx10.6-x86_64/share/charsets/ |
+--------------------------+-------------------------------
8 rows in set (0.00 sec)
看到utf8字樣就表示編碼設置正確。
注:如果MySQL的版本≥5.5.3,可以把編碼設置爲utf8mb4,utf8mb4和utf8完全兼容,但它支持最新的Unicode標準,可以顯示emoji字符。
安裝MySQL驅動
由於MySQL服務器以獨立的進程運行,並通過網絡對外服務,所以,需要支持Python的MySQL驅動來連接到MySQL服務器。MySQL官方提供了mysql-connector-python驅動,但是安裝的時候需要給pip命令加上參數--allow-external:
$ pip install mysql-connector-python --allow-external mysql-connector-python
如果上面的命令安裝失敗,可以試試另一個驅動:
$ pip install mysql-connector
我們演示如何連接到MySQL服務器的test數據庫:
# 導入MySQL驅動:
>>> import mysql.connector
# 注意把password設爲你的root口令:
>>> conn = mysql.connector.connect(user='root', password='password', database='test')
>>> cursor = conn.cursor()
# 創建user表:
>>> cursor.execute('create table user (id varchar(20) primary key, name varchar(20))')
# 插入一行記錄,注意MySQL的佔位符是%s:
>>> cursor.execute('insert into user (id, name) values (%s, %s)', ['1', 'Michael'])
>>> cursor.rowcount
1
# 提交事務:
>>> conn.commit()
>>> cursor.close()
# 運行查詢:
>>> cursor = conn.cursor()
>>> cursor.execute('select * from user where id = %s', ('1',))
>>> values = cursor.fetchall()
>>> values
[('1', 'Michael')]
# 關閉Cursor和Connection:
>>> cursor.close()
True
>>> conn.close()
由於Python的DB-API定義都是通用的,所以,操作MySQL的數據庫代碼和SQLite類似。
【小結】
執行INSERT等操作後要調用commit()提交事務;
MySQL的SQL佔位符是%s。
20.3 使用SQLAlchemy
數據庫表是一個二維表,包含多行多列。把一個表的內容用Python的數據結構表示出來的話,可以用一個list表示多行,list的每一個元素是tuple,表示一行記錄,比如,包含id和name的user表:
[ ('1', 'Michael'),
('2', 'Bob'),
('3', 'Adam') ]
Python的DB-API返回的數據結構就是像上面這樣表示的。
但是用tuple表示一行很難看出表的結構。如果把一個tuple用class實例來表示,就可以更容易地看出表的結構來:
class User(object):
def __init__(self, id, name):
self.id = id
self.name = name
[
User('1', 'Michael'),
User('2', 'Bob'),
User('3', 'Adam')
]
這就是傳說中的ORM技術:Object-Relational Mapping,把關係數據庫的表結構映射到對象上。是不是很簡單?
但是由誰來做這個轉換呢?所以ORM框架應運而生。
在Python中,最有名的ORM框架是SQLAlchemy。我們來看看SQLAlchemy的用法。
首先通過pip安裝SQLAlchemy:
$ pip install sqlalchemy
然後,利用上次我們在MySQL的test數據庫中創建的user表,用SQLAlchemy來試試:
1、第一步,導入SQLAlchemy,並初始化DBSession:
# 導入:
from sqlalchemy import Column, String, create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
# 創建對象的基類:
Base = declarative_base()
# 定義User對象:
class User(Base):
# 表的名字:
__tablename__ = 'user'
# 表的結構:
id = Column(String(20), primary_key=True)
name = Column(String(20))
# 初始化數據庫連接:
engine= create_engine('mysql+mysqlconnector://root:password@localhost:3306/test')
# 創建DBSession類型:
DBSession = sessionmaker(bind=engine)
以上代碼完成SQLAlchemy的初始化和具體每個表的class定義。如果有多個表,就繼續定義其他class,例如School:
class School(Base):
__tablename__ = 'school'
id = ...
name = ...
create_engine()用來初始化數據庫連接。SQLAlchemy用一個字符串表示連接信息:
'數據庫類型+數據庫驅動名稱://用戶名:口令@機器地址:端口號/數據庫名'
你只需要根據需要替換掉用戶名、口令等信息即可。
下面,我們看看如何向數據庫表中添加一行記錄。
由於有了ORM,我們向數據庫表中添加一行記錄,可以視爲添加一個User對象:
# 創建session對象:
session = DBSession()
# 創建新User對象:
new_user = User(id='5', name='Bob')
# 添加到session:
session.add(new_user)
# 提交即保存到數據庫:
session.commit()
# 關閉session:
session.close()
可見,關鍵是獲取session,然後把對象添加到session,最後提交併關閉。DBSession對象可視爲當前數據庫連接。
如何從數據庫表中查詢數據呢?有了ORM,查詢出來的可以不再是tuple,而是User對象。SQLAlchemy提供的查詢接口如下:
# 創建Session:
session = DBSession()
# 創建Query查詢,filter是where條件,最後調用one()返回唯一行,如果調用all()則返回所有行:
user = session.query(User).filter(User.id=='5').one()
# 打印類型和對象的name屬性:
print('type:', type(user))
print('name:', user.name)
# 關閉Session:
session.close()
運行結果如下:
type: <class '__main__.User'>
name: Bob
可見,ORM就是把數據庫表的行與相應的對象建立關聯,互相轉換。
由於關係數據庫的多個表還可以用外鍵實現一對多、多對多等關聯,相應地,ORM框架也可以提供兩個對象之間的一對多、多對多等功能。
例如,如果一個User擁有多個Book,就可以定義一對多關係如下:
class User(Base):
__tablename__ = 'user'
id = Column(String(20), primary_key=True)
name = Column(String(20))
# 一對多:
books = relationship('Book')
class Book(Base):
__tablename__ = 'book'
id = Column(String(20), primary_key=True)
name = Column(String(20))
# “多”的一方的book表是通過外鍵關聯到user表的:
user_id = Column(String(20), ForeignKey('user.id'))
當我們查詢一個User對象時,該對象的books屬性將返回一個包含若干個Book對象的list。
【小結】
ORM框架的作用就是把數據庫表的一行記錄與一個對象互相做自動轉換。
正確使用ORM的前提是瞭解關係數據庫的原理。