前幾天想把一篇不錯(cuò)的文章保存下來假夺,無奈是圖片的,于是想利用python把圖片中的文字識(shí)別出來
實(shí)現(xiàn)的方式還是挺多的斋攀,這里介紹下百度的AI開放平臺(tái)已卷,畢竟大公司,感覺識(shí)別的精度會(huì)高點(diǎn)淳蔼,同時(shí)相信他們的算法也會(huì)不斷優(yōu)化侧蘸,我等小菜鳥只要會(huì)用就可以啦。
一些準(zhǔn)備
使用百度的AI開放平臺(tái)鹉梨,首先你得有個(gè)百度的開發(fā)者賬號(hào)讳癌,相信你有百度云的話應(yīng)該都會(huì)有,沒有的話簡(jiǎn)單注冊(cè)一下就可以了存皂。
然后進(jìn)入控制臺(tái)選擇人工只能-文字識(shí)別去創(chuàng)建個(gè)應(yīng)用晌坤,這樣就會(huì)生成對(duì)應(yīng)的AppID逢艘,API Key和Secret Key,調(diào)用百度API的時(shí)候需要用到骤菠。
可以看到鲜戒,作為開發(fā)者你每天有一定的免費(fèi)調(diào)用次數(shù),但如果不滿足需求抹凳,可能就需要付費(fèi)啦遏餐。
正式編碼
下面簡(jiǎn)單介紹下編碼過程,具體可以參考百度的官方文檔
百度不但提供API颖系,還貼心的準(zhǔn)備了熱門語(yǔ)言的SDK,包括java,pyhton,c#等等辩越,其實(shí)本質(zhì)還是調(diào)用API嘁扼。
這里以python為例,首先安裝python的SDK:
pip install baidu-aip
看了下文檔的demo黔攒,其實(shí)還是比較簡(jiǎn)單的趁啸,幾行代碼就搞定了,文章最后貼自己的源碼吧督惰。
在瀏覽文檔的時(shí)候發(fā)現(xiàn)不傅,百度還提供了一些列的識(shí)別,包括身份證赏胚,銀行卡访娶,營(yíng)業(yè)執(zhí)照等固定的模板,同時(shí)還可以識(shí)別表格和自定義模板文字識(shí)別觉阅,在實(shí)際業(yè)務(wù)場(chǎng)景中還是挺有用處的崖疤。
此外還有一些其他AI相關(guān)的技術(shù),有興趣的小伙伴可以自行看下典勇。
最后貼一下自己寫的一個(gè)小demo劫哼,識(shí)別圖片中的文字后,又通過語(yǔ)音合成轉(zhuǎn)成了mp3的音頻:
總結(jié)
幾行代碼搞定的快感依舊屢試不爽。