我昨天剛剛領(lǐng)悟到,數(shù)學(xué)公式的精髓所在望拖。我之前一直是非常鄙視公式的渺尘,coreseek的標(biāo)準(zhǔn)差算法,等等说敏,只要有人在我面前扯軟件領(lǐng)域的數(shù)學(xué)公式之類鸥跟,我就覺得這人是神棍。直到昨天盔沫,我發(fā)現(xiàn)我這種方法是非常行之有效的医咨,正因?yàn)槲抑巴耆话褦?shù)學(xué)公式放在眼里,視之為神明架诞,所以我今天才能領(lǐng)略軟件工程里面的一些數(shù)學(xué)公式是怎么回事拟淮,如此短的時(shí)間領(lǐng)略到精髓的思想,為什么一些算法實(shí)現(xiàn)會(huì)用到一些或簡單谴忧,或復(fù)雜的數(shù)學(xué)公式惩歉。下面我就來講講,coreseek的標(biāo)準(zhǔn)差算法是怎么來的俏蛮。
我昨天的啟發(fā),完全是因?yàn)槲铱戳薽ysql的文檔上遥,他里面也用到一些簡單的公式搏屑。我發(fā)現(xiàn)mysql的這些簡單的公式,在80%的業(yè)務(wù)場(chǎng)景里面解決了一些問題粉楚,提高了性能辣恋。如果你問,為什么不能做到100%呢模软?因?yàn)闉榱艘子眯缘鹊任肮牵枰行┤∩帷>秃孟馽oreseek的標(biāo)準(zhǔn)差算法燃异,標(biāo)準(zhǔn)差為什么能提高分詞準(zhǔn)確率携狭,其實(shí)我一早就知道了,就是中文里面回俐,單個(gè)字作為一個(gè)詞的概率出現(xiàn)很少逛腿。所以套上標(biāo)準(zhǔn)差公式稀并,就能在1萬種業(yè)務(wù)場(chǎng)景把準(zhǔn)確率提高到90%。如果你又問单默,為什么不能提高到100%碘举?當(dāng)然可以了,只要你針對(duì)1萬種業(yè)務(wù)情況搁廓,寫1萬遍if else引颈,if else 里面一大堆邏輯判斷。而且這1萬種里面還要考慮各種業(yè)務(wù)沖突的情況境蜕。做到了蝙场,就是100%,但是那個(gè)會(huì)是多么大的開發(fā)成本汽摹,不如請(qǐng)100個(gè)人來做人工操作就好了李丰。特別是2001年這種計(jì)算機(jī)計(jì)算速度,存儲(chǔ)設(shè)備還不夠快的時(shí)代逼泣。但現(xiàn)在不一樣了趴泌,語音識(shí)別,圖像識(shí)別拉庶,這些年能搞起來嗜憔,完全是因?yàn)橥ㄐ蓬I(lǐng)域的發(fā)展,計(jì)算機(jī)計(jì)算速度氏仗,存儲(chǔ)設(shè)備吉捶,都提高了〗远可以用計(jì)算量更大的方式呐舔,來獲取更高的準(zhǔn)確率。不會(huì)因?yàn)橛布氖`慷蠕,只能這種選取一些不太好的公式算法珊拼。當(dāng)然還有互聯(lián)網(wǎng)發(fā)展帶來的數(shù)據(jù)量的增長。
我再說一句流炕,一個(gè)數(shù)學(xué)公式澎现,如果能在軟件領(lǐng)域,表達(dá)80%的事物的本質(zhì)每辟,已經(jīng)是不錯(cuò)的了剑辫。