本文分享知識(shí):
- pandas讀取Excel數(shù)據(jù) read_excel()
- 使用Python的加密庫(kù) hashlib
- pandas中map方法使用
- pandas寫(xiě)入Excel數(shù)據(jù) to_excel()
公眾號(hào)《帥帥的Python》回復(fù)《數(shù)據(jù)加密》獲取源碼
項(xiàng)目背景:
我這里有一份客戶的Excel數(shù)據(jù),里面有客戶的手機(jī)號(hào)和身份證號(hào)信息巧颈,這些信息不能泄露,你加密一下發(fā)給我。
面對(duì)經(jīng)理緊急安排的任務(wù)污朽,小凡不敢懈怠,暫時(shí)放下手中正在處理的任務(wù)龙考,將精力集中到數(shù)據(jù)加密這件事情上蟆肆。
小凡思考了一會(huì),數(shù)據(jù)加密晦款,常用的加密算法有:md5和sha炎功,既然沒(méi)有要求,那就選擇最簡(jiǎn)單的md5加密吧缓溅。
不一會(huì)蛇损,小凡腦海中就構(gòu)思出了兩種解決辦法:
1、在Excel中調(diào)用md5加密函數(shù)坛怪,但這個(gè)需要安裝加密文件淤齐,時(shí)間上可能來(lái)不及
2、用Python中的加密庫(kù)袜匿,只需要讀取Excel中的數(shù)據(jù)更啄,再將加密好的數(shù)據(jù)導(dǎo)出為Excel即可
經(jīng)過(guò)慎重的考慮,小凡決定使用Python進(jìn)行數(shù)據(jù)加密沉帮。
一锈死、用 pandas 讀取 Excel 數(shù)據(jù)
import pandas as pd
# Excel文件
excel_path = "./test.xlsx"
# pandas讀取Excel數(shù)據(jù)贫堰,并保存到 df 變量中
df = pd.read_excel(excel_path)
# 隨機(jī)查看5條數(shù)據(jù)
df.sample(5)
read_excel() 常用參數(shù):
io:excel文件地址
sheet_name:默認(rèn)為第一個(gè)表格
header:頭部(列名)從第幾行開(kāi)始,默認(rèn)第一行
除了用pandas還可以用xlrd庫(kù)讀取Excel待牵,xlwt將數(shù)據(jù)寫(xiě)入Excel其屏,詳情請(qǐng)看:第三章內(nèi)容
二、加密庫(kù) hashlib
獲取到數(shù)據(jù)后缨该,開(kāi)始加密偎行。我們先學(xué)習(xí)一下如何使用加密庫(kù)hashlib,加密一個(gè)客戶的身份證號(hào)贰拿?
import hashlib
# 加密的字符串
string = "730763747019734357"
# 字符串進(jìn)行 utf-8 編碼
utf_8_str = str(string).encode("utf8")
# 調(diào)用 hashlib.md5() 方法進(jìn)行加密
encry_result = hashlib.md5(utf_8_str).hexdigest()
encry_result
# 'f29e8eb231261735b849ad248ff50573'
這樣就把一個(gè)字符串用 md5 的方法加密完成啦蛤袒。讓我們稍微修飾一下,編寫(xiě)一個(gè)加密的函數(shù)膨更。
def encryption_str(string, encry_model="md5_32", encry_style=True):
# 加密為 utf-8 編碼
utf_8_str = str(string).encode("utf8")
# 函數(shù)字典
param_dict = {
"md5_32": hashlib.md5(utf_8_str),
"md5_16": hashlib.md5(utf_8_str),
"sha1": hashlib.sha1(utf_8_str),
"sha224": hashlib.sha224(utf_8_str),
"sha256": hashlib.sha256(utf_8_str),
"sha512": hashlib.sha512(utf_8_str)
}
encry_result = param_dict[encry_model].hexdigest()
if encry_model == 'md5_16':
encry_result = encry_result[8:-8]
# 返回結(jié)果
return encry_result if encry_style == "小寫(xiě)" else encry_result.upper()
嗯妙真,只是稍微修改一下。
三荚守、 pandas中的 map() 方法
現(xiàn)在有1000多條數(shù)據(jù)珍德,怎樣才能將這么多的數(shù)據(jù)一次性加密完成呢?
這就需要用到 map() 方法:
pandas.series.map(arg,na_action=None)矗漾,arg為一個(gè)函數(shù)锈候,將series中的每一個(gè)數(shù)據(jù)作為arg函數(shù)的參數(shù)
經(jīng)常與 lambda 函數(shù)連用,即:
df["列名"].map(lambda x:func(x))
表示將該列的每一個(gè)數(shù)據(jù) x敞贡,傳遞給 func()泵琳,并把函數(shù)的返回值組成新的列
df["手機(jī)號(hào)_md5"] = df["手機(jī)號(hào)"].map(lambda x:encryption_str(x))
df["身份證號(hào)_md5"] = df["身份證號(hào)"].map(lambda x:encryption_str(x))
df.sample(5)
數(shù)據(jù)已經(jīng)加密完成啦,接下來(lái)就把數(shù)據(jù)重新保存為 Excel 發(fā)給經(jīng)理誊役。
pandas.DataFrame.to_excel() 常用參數(shù):
sheet_name:工作表名获列,默認(rèn)為 sheet1
index:是否輸入索引,默認(rèn)為 True
# 將數(shù)據(jù)保存到新的 excel 中
df.to_excel("./客戶數(shù)據(jù)_md5加密.xlsx")
整個(gè)過(guò)程耗時(shí)15分鐘蛔垢,小凡檢查了一下加密后的數(shù)據(jù)蛛倦,確定沒(méi)有問(wèn)題,便將Excel發(fā)給經(jīng)理啦桌。
見(jiàn)經(jīng)理一直沒(méi)有回消息,小凡繼續(xù)做著先前的數(shù)據(jù)報(bào)告及皂。
四甫男、數(shù)據(jù)加密工具
過(guò)了一會(huì),經(jīng)理過(guò)來(lái)啦验烧。
做的很好板驳,能告訴我怎么做的嗎?經(jīng)理問(wèn)碍拆。
小凡將自己如何用Python加密數(shù)據(jù)的步驟講給經(jīng)理聽(tīng)若治,但是經(jīng)理好像聽(tīng)不太懂慨蓝。
有沒(méi)有什么工具,直接就將excel數(shù)據(jù)加密完成端幼,不用寫(xiě)代碼礼烈?經(jīng)理期待的問(wèn)到。
沒(méi)有吧婆跑,網(wǎng)上的工具都只能加密一個(gè)字符串此熬,沒(méi)有直接加密excel文件的工具。不過(guò)滑进,有什么是Python不能實(shí)現(xiàn)的呢犀忱?
于是,小凡決定用Python做個(gè)加密工具扶关,這樣操作起來(lái)就很方便啦阴汇。