背景:
有一個類似這樣的Excel文件(文件內(nèi)容隨便寫的)
分為三個運營商---電信胀瞪、聯(lián)通针余、移動
每個運營商有四個參數(shù)首包、尾包凄诞、成功率圆雁、慢速比
我需要統(tǒng)計某個運營商下阿里云流量更優(yōu)的所有省份,或者自建機房流量更優(yōu)的所有省份帆谍,比如一個省份的某個運營商的四個參數(shù)中阿里云更優(yōu)的個數(shù)>自建機房更優(yōu)的個數(shù)伪朽,則輸出該省份。
方法一:
將excel數(shù)據(jù)導入到數(shù)據(jù)庫里汛蝙,通過數(shù)據(jù)庫的sql語句進行查詢
-
將excel文件轉(zhuǎn)存為制表符分割的文本(.txt)
數(shù)據(jù)庫操作
新建表zl (注意CHARSET為utf8 否則會出現(xiàn)中文亂碼)
CREATE DATABASE zhao;
USE zhao;
CREATE TABLE `zl` (
`province` char(20) NOT NULL,
`dxsb` char(20) DEFAULT NULL,
`dxwb` char(20) DEFAULT NULL,
`dxcgl` char(20) DEFAULT NULL,
`dxmsb` char(20) DEFAULT NULL,
`ltsb` char(20) DEFAULT NULL,
`ltwb` char(20) DEFAULT NULL,
`ltcgl` char(20) DEFAULT NULL,
`ltmsb` char(20) DEFAULT NULL,
`ydsb` char(20) DEFAULT NULL,
`ydwb` char(20) DEFAULT NULL,
`ydcgl` char(20) DEFAULT NULL,
`ydmsb` char(20) DEFAULT NULL,
PRIMARY KEY (`province`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
-
查看我們剛保存的txt文件
把頭部的信息刪掉
導入txt文件到mysql
此步在mysql命令行操作(USE zhao; 這句話之后就可以)
確保sla.txt是跟mysql在一個服務器上
load data local infile "/sla.txt" into table male fields terminated by "\t" lines terminated by "\r\n";
- 通過sql語句進行分析
我們現(xiàn)在從數(shù)據(jù)庫查看就出現(xiàn)txt文本里的內(nèi)容了
我們的查詢邏輯開始已經(jīng)講過了烈涮,下面直接貼sql語句
栗子:
電信運營商阿里云更優(yōu)的省份
select * from (select province, if(dxsb = '阿里云更優(yōu)', '1', '0') + if(dxwb = '阿里云更優(yōu)', '1', '0') + if(dxcgl = '阿里云更優(yōu)', '1', '0') + if(dxmsb = '阿里云更優(yōu)', '1', '0') as aliyu, if (dxsb = '自建機房更優(yōu)', '1', '0') + if(dxwb = '自建機房更優(yōu)', '1', '0') + if(dxcgl = '自建機房更優(yōu)', '1', '0') + if(dxmsb = '自建機房更優(yōu)', '1', 0) as zijian from zl) as zl_inner where aliyu > zijian;
移動運營商自建更優(yōu)的省份
select * from (select province, if(ydsb = '阿里云更優(yōu)', '1', '0') + if(ydwb = '阿里云更優(yōu)', '1', '0') + if(ydcgl = '阿里云更優(yōu)', '1', '0') + if(ydmsb = '阿里云更優(yōu)', '1', '0') as aliyu, if (ydsb = '自建機房更優(yōu)', '1', '0') + if(ydwb = '自建機房更優(yōu)', '1', '0') + if(ydcgl = '自建機房更優(yōu)', '1', '0') + if(ydmsb = '自建機房更優(yōu)', '1', 0) as zijian from zl) as zl_inner where zijian > aliyu;
方法二:
通過python分析
python代碼:
#!/usr/bin/env python
# -*-coding:utf-8-*-
import xlrd
from collections import Counter, defaultdict
#打開文件
data = xlrd.open_workbook("sla.xlsx")
data_list = data.sheet_names()
# output 工作表名稱
print "表名稱:",data_list
print "#" * 50
def read_xlsx(datax):
table = data.sheet_by_name(datax)
# 分行
nrows = table.nrows
nrowsx = table.nrows
l_list = []
for i in range(nrowsx):
if i:
l_list.append(table.row_values(i))
l = u"阿里云更優(yōu)"
ll = u"自建機房更優(yōu)"
for lis in l_list:
#print lis
#all_list = [lis[0],lis[1:5],lis[5:9],lis[9:13]]
# city ; start: end: 4
all_list = [lis[0],lis[1:13:4]]
for ii in all_list[1:]:
c_num = Counter(ii)
if l in c_num or ll in c_num:
# cmp num
if c_num.get(l) > c_num.get(ll):
print all_list[0],c_num,"||","name:",l,"num:",c_num.get(l)
else:
pass
return "ok"
if __name__ == '__main__':
# 情況是 輸入三張工作表
print read_xlsx(u'\u5de5\u4f5c\u88681')
表名稱datax指的是excel里工作表sheet的名字。