Dorahacks 武漢 華科安步咖啡 2017/10/22
首先能夠參與這樣一個盛大互聯(lián)網(wǎng)hackaton活動本身就極具吸引力,連續(xù)工作24h捆交,產(chǎn)出對現(xiàn)實(shí)問題的解決方案零渐,本來抱著試一試的態(tài)度去參加,但沒想到最后能在16組隊(duì)伍中得到二等獎诵盼,收獲很多风宁,復(fù)盤。
主要項(xiàng)目人員有產(chǎn)品組兩人热监、爬蟲組兩人饮寞、算法組兩人。
項(xiàng)目為爬取微博用戶粉絲苦始,建立用戶畫像慌申。
通過:爬取數(shù)據(jù)-預(yù)處理-建立樣本集-建立某標(biāo)簽的測試集-特征提取-篩選變量-使用函數(shù)-得到結(jié)果蹄溉。
項(xiàng)目成果:建立假粉測試集與真粉測試集,對關(guān)曉彤粉絲分析得到其假粉數(shù)量大約在百分之5%役电,對項(xiàng)目應(yīng)用場景進(jìn)行了合理推廣棉胀。
一開始對于項(xiàng)目的設(shè)想是做互聯(lián)網(wǎng)招聘垂直領(lǐng)域聚合平臺囱晴,結(jié)合簡歷插件瓢谢,以及運(yùn)營方案氓扛。
問題:整個項(xiàng)目完整過程并沒有理清思路论笔,以及這三者的關(guān)聯(lián),做產(chǎn)品的hackton最好以前就有PPT與整體思路蒜埋。
后來這個項(xiàng)目沒有被團(tuán)隊(duì)采納最楷,我覺得是一個正確的決策籽孙,一來這個的實(shí)現(xiàn)難度不一般,也不太符合比賽geek的氣質(zhì)犯建,二來團(tuán)隊(duì)沒有前端适瓦,所以最優(yōu)選擇是放棄竿开。
后續(xù)團(tuán)隊(duì)采取了分析大V用戶畫像的idea,本身這個項(xiàng)目與dorahacks的氣質(zhì)也最相襯玻熙。
在一個技術(shù)驅(qū)動否彩、算法為主的團(tuán)隊(duì)里做PM,確實(shí)工作量上確實(shí)與常接觸的用戶需求方面的產(chǎn)品工作不同揭芍,我的工作內(nèi)容有:
尋找對標(biāo)產(chǎn)品胳搞。
分析市場現(xiàn)狀。
考慮商業(yè)與變現(xiàn)方面称杨。
將抽象需求轉(zhuǎn)化為具象的實(shí)現(xiàn)方法肌毅。
提供技術(shù)解決方案的建議。
對技術(shù)應(yīng)用場景進(jìn)行考慮姑原。
在整個hackton過程悬而,一直處于興奮的狀態(tài)24h沒有睡覺也依然沒有困意锭汛。前期主要做對于爬取數(shù)據(jù)的分類笨奠,在整個微博中能爬取哪些數(shù)據(jù)袭蝗?爬取哪些數(shù)據(jù)是有意義的?將抽象的爬取用戶信息變成爬取用戶的哪幾個數(shù)據(jù)般婆。后期想通過人工做一個分類到腥,限定某些數(shù)據(jù)量大小,這也取決于對于我們想篩選人群的定義蔚袍。后來發(fā)現(xiàn)依靠經(jīng)驗(yàn)以及人工的分類低效而不準(zhǔn)確乡范。改變想法后利用技術(shù)實(shí)現(xiàn),有兩個方案:將大V粉絲關(guān)注的其他ID與已爬取的某垂直領(lǐng)域大V的ID進(jìn)行對比啤咽,大于n個貼上相應(yīng)標(biāo)簽晋辆,通過機(jī)器學(xué)習(xí)發(fā)現(xiàn)特定粉絲的模式,再進(jìn)行篩選宇整。在技術(shù)實(shí)現(xiàn)溝通后瓶佳,人工采集了真粉與假粉的賬號,建立樣本集鳞青,用于機(jī)器學(xué)習(xí)與某大V粉絲對比霸饲。由于開發(fā)時間以及爬取數(shù)據(jù)時間的問題,第一項(xiàng)想法沒有實(shí)現(xiàn)盼玄,但是后一種方法同樣可行且可信任贴彼,通過使用不同的樣本集可以利用這一套技術(shù)的方法,實(shí)現(xiàn)多種應(yīng)用場景埃儿。
微博的開放性越來越差以及越來越不友好器仗,導(dǎo)致爬數(shù)據(jù)時出現(xiàn)了沒有意識到的問題。粉絲列表只能看前20頁童番,雖然前20頁可以不斷更新粉絲列表精钮,但是并不明確更新粉絲列表排名的規(guī)則,可能是活躍粉絲被排在前面剃斧,導(dǎo)致樣本集的數(shù)據(jù)可能是被污染的轨香。(尤其是目前樣本量較小。)以及Python 2的編碼問題幼东。
在進(jìn)行一個項(xiàng)目前先過流程與最小可行化產(chǎn)品臂容,以此作為前期調(diào)研可以在后面?zhèn)鬟f需求時溝通的更好。
工作量安排上一個從零到一的項(xiàng)目難免出現(xiàn)一部分人工作另一部分人清閑根蟹。
對于需求的傳遞脓杉,一定要跟緊技術(shù)人員的開發(fā)進(jìn)度,隨時溝通需求简逮,確認(rèn)需求的變更球散。
在討論時涉及的數(shù)據(jù)量太大,想做標(biāo)簽是是一個模糊的需求散庶,需要進(jìn)一步明確與量化蕉堰,分詞凌净、語義分析等方法難度明顯。
在整個項(xiàng)目過程中屋讶,一開始宏大的設(shè)想與定位冰寻,之后抓取粉絲發(fā)現(xiàn)的問題而焦慮。在缺乏靈感時找其他同學(xué)聊天得到假粉樣本集皿渗,得知無法貼標(biāo)簽后想去擴(kuò)展技術(shù)應(yīng)用價值性雄,剛剛開始爬數(shù)據(jù)時其實(shí)還沒想清楚如何利用數(shù)據(jù),后來去不斷地和算法同學(xué)聊羹奉,討論明確了方法。
感覺產(chǎn)品懂技術(shù)甚至本身會技術(shù)還是很有必要的约计,在溝通需求與進(jìn)度跟蹤還是很重要的诀拭。
一開始有些方向不清晰,后來發(fā)現(xiàn)技術(shù)的擴(kuò)展性與想象空間都很大煤蚌,再后來遇到問題停滯不前耕挨,再到深夜寄希望于數(shù)據(jù)處理。有過失去信心尉桩,沒有定位的時候筒占,也有焦慮的時候,不斷地身陷自我懷疑蜘犁,甚至PPT答辯時有過關(guān)于討論技術(shù)細(xì)節(jié)的風(fēng)格是不是合適的焦慮翰苫,上臺的演講風(fēng)格有沒有清楚傳達(dá)。后來發(fā)現(xiàn)其實(shí)堅(jiān)定初心保持信心才是合適的这橙。我自己的缺點(diǎn)也在比賽中有體現(xiàn)奏窑,演講的沒有重點(diǎn)與語速過快,本身缺乏leadership屈扎,對于現(xiàn)實(shí)與理想有不同埃唯,無法實(shí)現(xiàn)確實(shí)是需要接受。
作為一個產(chǎn)品鹰晨,從里面收益頗豐墨叛,不過最重要的是有一群極其靠譜的技術(shù)小伙伴,大家都很有激情模蜡,與探索的實(shí)力漠趁,讓我體驗(yàn)到一種make things happen的感覺,主辦方的贊助商閃銀主動聯(lián)系我們哩牍,說期待有技術(shù)合作棚潦,很感謝主辦方,也希望技術(shù)同學(xué)有更多收獲膝昆。