在程序運行的過程中,所有的變量都是在內(nèi)存中碳柱,比如构哺,定義一個dict:
d = dict(name='Bob', age=20, score=88)
可以隨時修改變量革答,比如把name
改成'Bill'
战坤,但是一旦程序結(jié)束,變量所占用的內(nèi)存就被操作系統(tǒng)全部回收残拐。如果沒有把修改后的'Bill'
存儲到磁盤上途茫,下次重新運行程序,變量又被初始化為'Bob'
溪食。
我們把變量從內(nèi)存中變成可存儲或傳輸?shù)倪^程稱之為序列化囊卜,在Python中叫pickling,在其他語言中也被稱之為serialization错沃,marshalling栅组,flattening等等,都是一個意思枢析。
序列化之后玉掸,就可以把序列化后的內(nèi)容寫入磁盤,或者通過網(wǎng)絡傳輸?shù)絼e的機器上醒叁。
反過來司浪,把變量內(nèi)容從序列化的對象重新讀到內(nèi)存里稱之為反序列化,即unpickling把沼。
Python提供兩個模塊來實現(xiàn)序列化:cPickle
和pickle
啊易。這兩個模塊功能是一樣的,區(qū)別在于cPickle
是C語言寫的智政,速度快认罩,pickle
是純Python寫的,速度慢续捂,跟cStringIO
和StringIO
一個道理垦垂。用的時候,先嘗試導入cPickle
牙瓢,如果失敗劫拗,再導入pickle
:
try:
import cPickle as pickle
except ImportError:
import pickle
首先,我們嘗試把一個對象序列化并寫入文件:
>>> d = dict(name='Bob', age=20, score=88)
>>> pickle.dumps(d)
"(dp0\nS'age'\np1\nI20\nsS'score'\np2\nI88\nsS'name'\np3\nS'Bob'\np4\ns."
pickle.dumps()
方法把任意對象序列化成一個str矾克,然后页慷,就可以把這個str寫入文件⌒哺剑或者用另一個方法pickle.dump()
直接把對象序列化后寫入一個file-like Object:
>>> f = open('dump.txt', 'wb')
>>> pickle.dump(d, f)
>>> f.close()
看看寫入的dump.txt
文件酒繁,一堆亂七八糟的內(nèi)容,這些都是Python保存的對象內(nèi)部信息控妻。
當我們要把對象從磁盤讀到內(nèi)存時州袒,可以先把內(nèi)容讀到一個str
,然后用pickle.loads()
方法反序列化出對象弓候,也可以直接用pickle.load()
方法從一個file-like Object
中直接反序列化出對象郎哭。我們打開另一個Python命令行來反序列化剛才保存的對象:
>>> f = open('dump.txt', 'rb')
>>> d = pickle.load(f)
>>> f.close()
>>> d
{'age': 20, 'score': 88, 'name': 'Bob'}
變量的內(nèi)容又回來了他匪!
當然,這個變量和原來的變量是完全不相干的對象夸研,它們只是內(nèi)容相同而已邦蜜。
Pickle的問題和所有其他編程語言特有的序列化問題一樣,就是它只能用于Python亥至,并且可能不同版本的Python彼此都不兼容悼沈,因此,只能用Pickle保存那些不重要的數(shù)據(jù)抬闯,不能成功地反序列化也沒關系井辆。
JSON
如果我們要在不同的編程語言之間傳遞對象,就必須把對象序列化為標準格式溶握,比如XML,但更好的方法是序列化為JSON蒸播,因為JSON表示出來就是一個字符串睡榆,可以被所有語言讀取,也可以方便地存儲到磁盤或者通過網(wǎng)絡傳輸袍榆。JSON不僅是標準格式胀屿,并且比XML更快,而且可以直接在Web頁面中讀取包雀,非常方便宿崭。
JSON表示的對象就是標準的JavaScript語言的對象,JSON和Python內(nèi)置的數(shù)據(jù)類型對應如下:
JSON類型 | Python類型 |
---|---|
{} | dict |
[] | list |
"string" | 'str'或u'unicode' |
1234.56 | int或float |
true/false | True/False |
null | None |
Python內(nèi)置的json
模塊提供了非常完善的Python對象到JSON格式的轉(zhuǎn)換才写。我們先看看如何把Python對象變成一個JSON:
>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'
dumps()
方法返回一個str
葡兑,內(nèi)容就是標準的JSON。類似的赞草,dump()
方法可以直接把JSON寫入一個file-like Object
讹堤。
要把JSON反序列化為Python對象,用loads()
或者對應的load()
方法厨疙,前者把JSON的字符串反序列化洲守,后者從file-like Object
中讀取字符串并反序列化:
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{u'age': 20, u'score': 88, u'name': u'Bob'}
有一點需要注意,就是反序列化得到的所有字符串對象默認都是unicode
而不是str
沾凄。由于JSON標準規(guī)定JSON編碼是UTF-8梗醇,所以我們總是能正確地在Python的str
或unicode
與JSON的字符串之間轉(zhuǎn)換。
JSON進階
Python的dict
對象可以直接序列化為JSON的{}
撒蟀,不過叙谨,很多時候,我們更喜歡用class
表示對象牙肝,比如定義Student
類唉俗,然后序列化:
import json
class Student(object):
def __init__(self, name, age, score):
self.name = name
self.age = age
self.score = score
s = Student('Bob', 20, 88)
print(json.dumps(s))
運行代碼嗤朴,毫不留情地得到一個TypeError
:
Traceback (most recent call last):
...
TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable
錯誤的原因是Student
對象不是一個可序列化為JSON的對象。
如果連class
的實例對象都無法序列化為JSON虫溜,這肯定不合理雹姊!
別急,我們仔細看看dumps()
方法的參數(shù)列表衡楞,可以發(fā)現(xiàn)吱雏,除了第一個必須的obj
參數(shù)外,dumps()
方法還提供了一大堆的可選參數(shù):
https://docs.python.org/2/library/json.html#json.dumps
這些可選參數(shù)就是讓我們來定制JSON序列化瘾境。前面的代碼之所以無法把Student
類實例序列化為JSON歧杏,是因為默認情況下,dumps()
方法不知道如何將Student
實例變?yōu)橐粋€JSON的{}
對象迷守。
可選參數(shù)default
就是把任意一個對象變成一個可序列為JSON的對象犬绒,我們只需要為Student
專門寫一個轉(zhuǎn)換函數(shù),再把函數(shù)傳進去即可:
def student2dict(std):
return {
'name': std.name,
'age': std.age,
'score': std.score
}
print(json.dumps(s, default=student2dict))
這樣兑凿,Student
實例首先被student2dict()
函數(shù)轉(zhuǎn)換成dict
凯力,然后再被順利序列化為JSON。
不過礼华,下次如果遇到一個Teacher
類的實例咐鹤,照樣無法序列化為JSON。我們可以偷個懶圣絮,把任意class
的實例變?yōu)?code>dict:
print(json.dumps(s, default=lambda obj: obj.__dict__))
因為通常class
的實例都有一個__dict__
屬性祈惶,它就是一個dict
,用來存儲實例變量扮匠。也有少數(shù)例外捧请,比如定義了__slots__
的class。
同樣的道理餐禁,如果我們要把JSON反序列化為一個Student
對象實例血久,loads()
方法首先轉(zhuǎn)換出一個dict
對象,然后帮非,我們傳入的object_hook
函數(shù)負責把dict
轉(zhuǎn)換為Student
實例:
def dict2student(d):
return Student(d['name'], d['age'], d['score'])
json_str = '{"age": 20, "score": 88, "name": "Bob"}'
print(json.loads(json_str, object_hook=dict2student))
運行結(jié)果如下:
<__main__.Student object at 0x10cd3c190>
打印出的是反序列化的Student
實例對象氧吐。
小結(jié)
Python語言特定的序列化模塊是pickle
,但如果要把序列化搞得更通用末盔、更符合Web標準筑舅,就可以使用json
模塊。
json
模塊的dumps()
和loads()
函數(shù)是定義得非常好的接口的典范陨舱。當我們使用時翠拣,只需要傳入一個必須的參數(shù)。但是游盲,當默認的序列化或反序列機制不滿足我們的要求時误墓,我們又可以傳入更多的參數(shù)來定制序列化或反序列化的規(guī)則蛮粮,既做到了接口簡單易用,又做到了充分的擴展性和靈活性谜慌。