對于創(chuàng)投圈的人來說,IT桔子應該算是必備網(wǎng)站之一了烧颖,有次聽莊明浩Live弱左,他提到一點,自己帶投資經(jīng)理時炕淮,就讓他們看IT桔子拆火,觀察最新的融資信息,然后去思考為什么這些公司會獲得融資,這樣持續(xù)半年们镜,功力大增币叹。
我不但用上了IT桔子,還在IT桔子辦起了公模狭,因為北京就我和老范颈抚,一老一少,沒必要再折騰一個辦公室嚼鹉。
所以得空贩汉,我便順手找來內(nèi)部數(shù)據(jù)分析師,了解了IT桔子數(shù)據(jù)的來源反砌,以及加工過程雾鬼,這是一個很自然的想法,因為使用一個工具宴树,必須要知道它的局限策菜,知道它更新頻率如何,信息準確度有多少酒贬,數(shù)據(jù)庫信息是否完善又憨,如此才能清楚如何使用它,不然你會像知道一把槍威力很猛锭吨,卻不知道它是否可以用來切菜一樣蠢莺。
所以這篇文章對于創(chuàng)投圈的朋友,還有很有幫助的零如,以下為整理信息:
首先躏将,在IT桔子,有4個專欄是更新比較多的:發(fā)現(xiàn)新公司考蕾、投資速遞祸憋、投資機構(gòu)、孵化器肖卧。這些信息可分為結(jié)構(gòu)化數(shù)據(jù)蚯窥,非結(jié)構(gòu)化數(shù)據(jù),UGC(也是蠻大的一份量)三部分塞帐。
非結(jié)構(gòu)化數(shù)據(jù)中50~60%是由人工來編輯加工的拦赠,渠道可能有十幾個,如36氪葵姥、獵云荷鼠、微博等。之后IT桔子員工會自己貼標簽牌里,寫簡介颊咬。更新頻率一天2此务甥,上午10點一次牡辽,下午5點時一次喳篇。這個過程不可避免,但確實有點無聊态辛,我聽說一些員工找這些數(shù)據(jù)從早照到晚麸澜,有種生無所戀的感覺。
他們的抓手是事件奏黑,比如一條新聞是一個事件炊邦,然后他們會從一個個的事件中拆解出信息,再豐富到數(shù)據(jù)庫中熟史。
結(jié)構(gòu)化數(shù)據(jù)這塊是利用爬蟲馁害,去爬一些工商信息,或者新聞等蹂匹。最后碘菜,UGC這部分占比并不少,有些創(chuàng)業(yè)公司限寞,或者是公關會把自己的公司主動發(fā)出來忍啸,讓IT桔子收錄,數(shù)量一天約為幾百家履植。
IT桔子的數(shù)據(jù)庫包含市場所有的公司嗎计雌?并不是的,它收錄的公司大多來自于一級市場玫霎,二級市場的信息是沒有的凿滤,此外,有些公司比較傳統(tǒng)庶近,信息太少翁脆,那就不收錄,所以并不是面面俱到拦盹。
而我們查詢投資機構(gòu)時鹃祖,其主頁會顯示自己已投過的公司,到哪展示出來的也是不全的普舆,因為有些投資機構(gòu)并沒有把信息展示出來恬口,公開渠道沒有的話,IT桔子也不會收錄沼侣。
引用一句羅振宇2017跨年演講中的觀點:在人工智能上祖能,算法幾乎沒有什么門檻,真正有門檻的是數(shù)據(jù)蛾洛,誰能掌握最豐富养铸、結(jié)構(gòu)化的數(shù)據(jù)雁芙,誰就更有可能成為未來的獨角獸,所以钞螟,祝福IT桔子兔甘。
小插曲:今晚9點左右,我去辦公室旁邊的健身房回來時鳞滨,看到空蕩蕩的辦公室只剩文飛翔洞焙,她旁若無人,專注地在敲打著什么拯啦,不止今天澡匪,幾乎每天,飛翔都是IT桔子下班最晚的一員褒链。