一、需求分析
統(tǒng)計(jì)給定英文文檔中單詞出現(xiàn)的頻率挽荠,要求速度快、準(zhǔn)確率高屁柏,有良好的交互界面凫碌,初期實(shí)現(xiàn)簡(jiǎn)單的分詞扑毡、統(tǒng)計(jì)功能,不考慮詞形變換等復(fù)雜情況盛险,中期要實(shí)現(xiàn)相對(duì)簡(jiǎn)單的詞形還原任務(wù)瞄摊,后期實(shí)現(xiàn)復(fù)雜的詞形變換還原(需要較強(qiáng)的自然語(yǔ)言處理能力,暫不考慮)
二苦掘、環(huán)境搭建
| 所需環(huán)境 | 推薦工具 |
| ------------- |:-------------:| -----:|
|Python編程工具|PyCharm 2016.2|
|Python版本|Python 3.5|
|PyQt版本|PyQt5 |
|界面設(shè)計(jì)| QtDesigner|
|打包程序| pyinstaller|
- 1换帜、官網(wǎng)下載安裝Python3.5
- 2、官網(wǎng)下載安裝PyCharm
- 3鹤啡、可以在PyCharm打開(kāi)setting>Project Interpreter>點(diǎn)擊加號(hào)搜索PyQt5直接安裝惯驼,其他安裝方式請(qǐng)自行搜索
- 4、下載Qt5.7安裝递瑰,自帶QtDesigner和QtCreator
注意事項(xiàng)
網(wǎng)上搜索許多PyQt教程祟牲,他們的PyQt5中一般自帶QtDesigner程序,不知道為什么我的沒(méi)有抖部,所以只好下載完整的Qt5.7安裝包 - 5说贝、PyInstaller支持Python3,cx_Freeze暫不支持
三您朽、測(cè)試案例
使用1M狂丝、20M、100M的txt文檔哗总,1M几颜、100M的doc文檔,50M的docx文檔讯屈,一個(gè)小型的數(shù)字文檔測(cè)試對(duì)數(shù)字分詞的準(zhǔn)確率
第一次次測(cè)試文檔
第二次測(cè)試文檔