大家好齐鲤,我是一名曾經(jīng)只會(huì)excel的數(shù)據(jù)分析師。
后來(lái)經(jīng)我的同事大鵬點(diǎn)撥饱亿,我知道了Python數(shù)據(jù)分析靶橱,向他學(xué)習(xí)進(jìn)入了一條通神之路。今天是我“略懂”Python數(shù)據(jù)分析的第200天路捧。
在這200天里关霸,我的工作效率逐漸變高,處理數(shù)據(jù)量從千到萬(wàn)杰扫,接的項(xiàng)目越來(lái)越復(fù)雜队寇,老板看我的眼神也越來(lái)越柔和,有時(shí)甚至單獨(dú)請(qǐng)我吃飯……看來(lái)我很快就能升職加薪章姓!
高興之余佳遣,我對(duì)我的Python技術(shù)能力也有點(diǎn)擔(dān)心,甚至陷入了一種瓶頸:
1凡伊、工作中有大量的描述性統(tǒng)計(jì)工作零渐,要求不高,對(duì)我這種審美捉急的人來(lái)說(shuō)系忙,excel的快速樣式有時(shí)候很關(guān)鍵诵盼。
2、我很少碰到Python能做而excel不能做的數(shù)據(jù)處理,excel很慢甚至死機(jī)风宁,但只要電腦性能好洁墙,總能完成;
3戒财、雖說(shuō)會(huì)Python是優(yōu)勢(shì)热监,但公司的excel普及程度很高,介于項(xiàng)目合作原因我總是需要用excel銜接數(shù)據(jù)合作饮寞。
這不免導(dǎo)致我對(duì)Python技能的定位產(chǎn)生懷疑孝扛,我稱這個(gè)現(xiàn)象叫非典型性Python冷淡綜合癥。
新刺激來(lái)的很快幽崩,就在今天疗琉,帶我入Python坑的同事大鵬介紹來(lái)了一個(gè)新人小覃。我很快感覺到老板對(duì)我關(guān)愛的眼神落到了小覃身上歉铝。這不盈简,他們正在工位電腦前談笑風(fēng)生。
這怎么行太示!老板最寵的只能是我柠贤!
我決定再次展開“歡迎新人”套近乎策略,探探這位新人如此招待見的原因类缤。
走近他們臼勉,我先注意到了小覃電腦屏幕上有一堆貓貓狗狗照片,而小覃正在邊寫python代碼邊和老板解釋什么餐弱。只見他迅速寫了十幾行代碼并運(yùn)行宴霸,成功地識(shí)別了圖片里的貓。
第一步:進(jìn)行模型訓(xùn)練膏蚓,構(gòu)建識(shí)別貓狗的CNN模型
第二步:測(cè)試一張測(cè)試集里的照片瓢谢,確認(rèn)照片的分類為貓
這看似簡(jiǎn)單的操作卻這讓我和老板都很好奇。
我從未處理過(guò)除了CSV和JSON以外格式的數(shù)據(jù)驮瞧,面對(duì)新的思路氓扛,我不禁懷疑是否自己之前太過(guò)淺薄。
而老板一個(gè)勁的點(diǎn)頭论笔,說(shuō)找對(duì)了人采郎,接下來(lái)的AI旅游小程序項(xiàng)目有亮點(diǎn)了,咱們的產(chǎn)品肯定會(huì)刷爆朋友圈狂魔,還一邊拿手機(jī)里的產(chǎn)品概念圖給小覃看:
圖中為計(jì)算機(jī)通過(guò)機(jī)器學(xué)習(xí)識(shí)別街景圖片中的行人蒜埋、自行車和機(jī)動(dòng)車并定位邊界。該數(shù)據(jù)有助于識(shí)別城市道路使用情況最楷,甚至研究街道美學(xué)整份,能幫助使用者快速認(rèn)知陌生城市待错。本圖來(lái)自“城室科技”,歡迎有興趣的小伙伴微信自行搜索皂林。
看來(lái)面前是一位新大神朗鸠,經(jīng)驗(yàn)告訴我蚯撩,喂到嘴邊的大腿不能不跪础倍,我立刻上前獻(xiàn)上的膝蓋,說(shuō)道:覃大哥胎挎,小弟也算略懂Python沟启,之前在公司做數(shù)據(jù)分析工作,但從沒完成過(guò)你這么酷的操作犹菇,快教教小弟德迹,你剛剛用Python干了什么?
覃大哥笑道:過(guò)獎(jiǎng)了揭芍,其實(shí)剛剛就是基本的利用機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法來(lái)識(shí)別圖片里的對(duì)象胳搞。我使用Python加載深度學(xué)習(xí)工具包Keras,構(gòu)建了一個(gè)是簡(jiǎn)單卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型進(jìn)行貓狗識(shí)別称杨,用于給老板解釋原理肌毅。你也一起聽吧。
總的來(lái)說(shuō)姑原,我有一些貓狗圖片悬而,作為訓(xùn)練集數(shù)據(jù)(Training Set),它們是用于建立和優(yōu)化模型的已經(jīng)有標(biāo)簽的原始數(shù)據(jù)锭汛。而我們也會(huì)有一些測(cè)試集數(shù)據(jù)(Test Set)笨奠,用于檢驗(yàn)?zāi)P汀N业哪繕?biāo)是為了構(gòu)建一個(gè)模型系統(tǒng)唤殴,把未知貓狗標(biāo)簽圖片放進(jìn)這個(gè)系統(tǒng)進(jìn)行測(cè)試般婆,正確地給它們打上是貓還是狗的標(biāo)簽。
圖為實(shí)時(shí)識(shí)別貓狗的動(dòng)態(tài)位置朵逝,算法來(lái)自 Joseph Redmon 腺兴,他研究使用計(jì)算機(jī)視覺的一種檢測(cè)系統(tǒng)yolo來(lái)定位他家的貓狗,相關(guān)介紹可自行搜索ted演講How computers learn to recognize objects instantly廉侧。
一個(gè)好的模型并不是一蹴而就页响,需要進(jìn)行調(diào)整。比如我剛建立的CNN模型的準(zhǔn)確率大概只在50%到60%段誊,很低闰蚕。因此實(shí)際應(yīng)用上,我們一般會(huì)投入大量精力做一些提高準(zhǔn)確率的操作连舍。
常用的操作包括增加訓(xùn)練集樣本數(shù)量没陡、嘗試使用更多或更少的特征值、集成模型等等方法。這決定了學(xué)習(xí)機(jī)器學(xué)習(xí)必須要撿起你的數(shù)學(xué)盼玄,不過(guò)這都是后話贴彼。
分辨貓狗是業(yè)界一個(gè)成熟案例,這里我們以一個(gè)訓(xùn)練好的圖像分類模型VGG16為例埃儿,以便得到更準(zhǔn)確的結(jié)果:
1#?搭建全連接層
2top_model?=?Sequential()
3top_model.add(Flatten(input_shape=vgg16_model.output_shape[1:]))
4top_model.add(Dense(256,activation='relu'))
5top_model.add(Dropout(0.5))
6top_model.add(Dense(2,activation='softmax'))
7
8model?=?Sequential()
9model.add(vgg16_model)
10model.add(top_model)
用此方法我們便可以更精確的辨認(rèn)出貓狗器仗。不管貓主子是何種奇特姿態(tài),準(zhǔn)確率都比較高童番,可達(dá)到85%精钮。
覃大哥放下鼠標(biāo),轉(zhuǎn)過(guò)頭來(lái)剃斧,對(duì)我和老板說(shuō)道:這是一個(gè)示例轨香,讓大家理解機(jī)器學(xué)習(xí)的一種工作方向,這個(gè)方向被稱為“計(jì)算機(jī)視覺”幼东,大家經(jīng)常聽說(shuō)的的圖像識(shí)別就是這門技術(shù)里的內(nèi)容臂容。老板想完成旅游小程序,用計(jì)算機(jī)視覺技術(shù)研究街景必不可少根蟹。
此時(shí)的我突然茅塞頓開脓杉,這不就是我一直找尋的突破口嗎?早就聽說(shuō)人工智能機(jī)器學(xué)習(xí)娜亿,但一直覺得自己數(shù)學(xué)不好沒有著手學(xué)習(xí)±鲆眩現(xiàn)在看到演示,才發(fā)現(xiàn)千里之行买决,始于足下沛婴。
于是我立馬向他問道:覃大神,請(qǐng)接收小弟的仰慕督赤,能否教我這門技術(shù)嘁灯,小弟能打水能錘肩學(xué)得快!
覃大神這候笑了:可以啊躲舌,入門不難丑婿,有個(gè)好老師帶更是事半功倍,來(lái)騰訊課堂免費(fèi)體驗(yàn)一下便知没卸。
更可以加群:862672474羹奉,群內(nèi)除了有熱心的老師和同學(xué)們的答疑以外,還有更加系統(tǒng)约计、干貨更密集的免費(fèi)直播诀拭!