tess_two Android圖片文字識別

文字識別一般都用的tesseract-ocr。
GitHub:https://github.com/tesseract-ocr/tesseract
而Android對應(yīng)的比較推薦的有個tess-two腺占。
GitHub:https://github.com/rmtheis/tess-two

Demo的github地址:https://github.com/wangyisll/TessTwoDemo

先看效果圖

我主要是識別截圖氮块,所以圖片比較規(guī)范捉超,識別率應(yīng)該很高氢伟。

![Screenshot_2017-03-17-16-53-25-879_com.sunlinlin..png](http://upload-images.jianshu.io/upload_images/2062943-5e205d16418fb691.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

簡介什么都不說了窍仰,直接看簡單的用法吧


首先肯定是引入依賴了

dependencies {
    compile 'com.rmtheis:tess-two:6.2.0'
}

簡單的用法其實(shí)就幾行代碼:

TessBaseAPI tessBaseAPI = new TessBaseAPI();
tessBaseAPI.init(DATAPATH, DEFAULT_LANGUAGE);//參數(shù)后面有說明饺藤。
tessBaseAPI.setImage(bitmap);
String text = tessBaseAPI.getUTF8Text();

就這樣簡單的把一個bitmap設(shè)置進(jìn)去塔淤,就能識別到里面的文字并輸出了阱飘。
但是真正用的時候還是遇到了點(diǎn)麻煩斥杜,雖然只是簡單的識別。
主要是tessBaseAPI.init(DATAPATH, DEFAULT_LANGUAGE)這個方法容易出錯沥匈。
先看一下這個方法的源碼吧:

public boolean init(String datapath, String language) {
        return init(datapath, language, OEM_DEFAULT);
    }
/**
     * Initializes the Tesseract engine with the specified language model(s). Returns
     * <code>true</code> on success.
     *
     * @see #init(String, String)
     *
     * @param datapath the parent directory of tessdata ending in a forward
     *            slash
     * @param language an ISO 639-3 string representing the language(s)
     * @param ocrEngineMode the OCR engine mode to be set
     * @return <code>true</code> on success
     */
    public boolean init(String datapath, String language, int ocrEngineMode) {
        if (datapath == null)
            throw new IllegalArgumentException("Data path must not be null!");
        if (!datapath.endsWith(File.separator))
            datapath += File.separator;

        File datapathFile = new File(datapath);
        if (!datapathFile.exists())
            throw new IllegalArgumentException("Data path does not exist!");

        File tessdata = new File(datapath + "tessdata");
        if (!tessdata.exists() || !tessdata.isDirectory())
            throw new IllegalArgumentException("Data path must contain subfolder tessdata!");

        //noinspection deprecation
        if (ocrEngineMode != OEM_CUBE_ONLY) {
            for (String languageCode : language.split("\\+")) {
                if (!languageCode.startsWith("~")) {
                    File datafile = new File(tessdata + File.separator + 
                            languageCode + ".traineddata");
                    if (!datafile.exists())
                        throw new IllegalArgumentException("Data file not found at " + datafile);
                }
            }
        }

        boolean success = nativeInitOem(mNativeData, datapath, language, ocrEngineMode);

        if (success) {
            mRecycled = false;
        }

        return success;
    }

注意

從下面的方法中拋出的幾個異痴嵛梗可以看出來,初始化的時候高帖,第一個參數(shù)是個文件夾缰儿,而且這個文件夾中必須有一個tessdata的文件夾;而且這個文件夾中要有個文件叫做 第二個參數(shù).traineddata 散址。具體的可以看下面代碼里的注釋乖阵。這些文件夾和文件沒有的一定要創(chuàng)建好,不然會報(bào)錯预麸。

第二個參數(shù).traineddata 是個什么文件呢瞪浸?
這個是識別用到的語言庫還是文字庫什么的,按那個初始化方法的意思是喲啊放到SD卡中的吏祸∧眨可以在下面的地址下載。我的demo里把這個文件放在了assets中犁罩,啟動的時候復(fù)制到內(nèi)存卡里齐蔽。
https://github.com/tesseract-ocr/tessdata

chi_sim.traineddata應(yīng)該是健體中文吧,我用的是這個床估。中英文都能識別含滴。

代碼

下面是主要代碼:

import android.Manifest;
import android.content.pm.PackageManager;
import android.graphics.Bitmap;
import android.graphics.BitmapFactory;
import android.os.Build;
import android.os.Bundle;
import android.os.Environment;
import android.support.annotation.NonNull;
import android.support.v7.app.AppCompatActivity;
import android.util.Log;
import android.view.View;
import android.widget.Button;
import android.widget.TextView;

import com.googlecode.tesseract.android.TessBaseAPI;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;

public class MainActivity extends AppCompatActivity {

    private static final String TAG = "MainActivity";
    private Button btn;
    private TextView tv;

    /**
     * TessBaseAPI初始化用到的第一個參數(shù),是個目錄丐巫。
     */
    private static final String DATAPATH = Environment.getExternalStorageDirectory().getAbsolutePath() + File.separator;
    /**
     * 在DATAPATH中新建這個目錄谈况,TessBaseAPI初始化要求必須有這個目錄勺美。
     */
    private static final String tessdata = DATAPATH + File.separator + "tessdata";
    /**
     * TessBaseAPI初始化測第二個參數(shù),就是識別庫的名字不要后綴名碑韵。
     */
    private static final String DEFAULT_LANGUAGE = "chi_sim";
    /**
     * assets中的文件名
     */
    private static final String DEFAULT_LANGUAGE_NAME = DEFAULT_LANGUAGE + ".traineddata";
    /**
     * 保存到SD卡中的完整文件名
     */
    private static final String LANGUAGE_PATH = tessdata + File.separator + DEFAULT_LANGUAGE_NAME;

    /**
     * 權(quán)限請求值
     */
    private static final int PERMISSION_REQUEST_CODE=0;

    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
        btn = (Button) findViewById(R.id.btn);
        tv = (TextView) findViewById(R.id.tv);

        if (Build.VERSION.SDK_INT >= 23) {
            if (checkSelfPermission(Manifest.permission.READ_EXTERNAL_STORAGE) != PackageManager.PERMISSION_GRANTED ||
                    checkSelfPermission(Manifest.permission.WRITE_EXTERNAL_STORAGE) != PackageManager.PERMISSION_GRANTED) {
                requestPermissions(new String[]{Manifest.permission.WRITE_EXTERNAL_STORAGE, Manifest.permission.READ_EXTERNAL_STORAGE}, PERMISSION_REQUEST_CODE);
            }
        }

        //Android6.0之前安裝時就能復(fù)制赡茸,6.0之后要先請求權(quán)限,所以6.0以上的這個方法無用祝闻。
        copyToSD(LANGUAGE_PATH, DEFAULT_LANGUAGE_NAME);

        btn.setOnClickListener(new View.OnClickListener() {
            @Override
            public void onClick(View v) {
                new Thread(new Runnable() {
                    @Override
                    public void run() {
                        Log.i(TAG, "run: kaishi " + System.currentTimeMillis());

                        Bitmap bitmap = BitmapFactory.decodeResource(getResources(), R.drawable.quanbu);
                        Log.i(TAG, "run: bitmap " + System.currentTimeMillis());

                        TessBaseAPI tessBaseAPI = new TessBaseAPI();

                        tessBaseAPI.init(DATAPATH, DEFAULT_LANGUAGE);

                        tessBaseAPI.setImage(bitmap);
                        final String text = tessBaseAPI.getUTF8Text();
                        Log.i(TAG, "run: text " + System.currentTimeMillis() + text);
                        runOnUiThread(new Runnable() {
                            @Override
                            public void run() {
                                tv.setText(text);
                            }
                        });

                        tessBaseAPI.end();
                    }
                }).start();
            }
        });

    }

    /**
     * 將assets中的識別庫復(fù)制到SD卡中
     * @param path  要存放在SD卡中的 完整的文件名占卧。這里是"/storage/emulated/0//tessdata/chi_sim.traineddata"
     * @param name  assets中的文件名 這里是 "chi_sim.traineddata"
     */
    public void copyToSD(String path, String name) {
        Log.i(TAG, "copyToSD: "+path);
        Log.i(TAG, "copyToSD: "+name);

        //如果存在就刪掉
        File f = new File(path);
        if (f.exists()){
            f.delete();
        }
        if (!f.exists()){
            File p = new File(f.getParent());
            if (!p.exists()){
                p.mkdirs();
            }
            try {
                f.createNewFile();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

        InputStream is=null;
        OutputStream os=null;
        try {
            is = this.getAssets().open(name);
            File file = new File(path);
            os = new FileOutputStream(file);
            byte[] bytes = new byte[2048];
            int len = 0;
            while ((len = is.read(bytes)) != -1) {
                os.write(bytes, 0, len);
            }
            os.flush();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                if (is != null)
                    is.close();
                if (os != null)
                    os.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

    }

    /**
     * 請求到權(quán)限后在這里復(fù)制識別庫
     * @param requestCode
     * @param permissions
     * @param grantResults
     */
    @Override
    public void onRequestPermissionsResult(int requestCode, @NonNull String[] permissions, @NonNull int[] grantResults) {
            Log.i(TAG, "onRequestPermissionsResult: "+grantResults[0]);
        switch (requestCode){
            case PERMISSION_REQUEST_CODE:
                if (grantResults.length>0&&grantResults[0]==PackageManager.PERMISSION_GRANTED){
                    Log.i(TAG, "onRequestPermissionsResult: copy");
                    copyToSD(LANGUAGE_PATH, DEFAULT_LANGUAGE_NAME);
                }
                break;
            default:
                break;
        }
    }
}

demo下載地址

http://download.csdn.net/detail/qq_25806863/9783651

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市联喘,隨后出現(xiàn)的幾起案子华蜒,更是在濱河造成了極大的恐慌,老刑警劉巖豁遭,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件叭喜,死亡現(xiàn)場離奇詭異,居然都是意外死亡蓖谢,警方通過查閱死者的電腦和手機(jī)捂蕴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來闪幽,“玉大人啥辨,你說我怎么就攤上這事」凳梗” “怎么了委可?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵渊跋,是天一觀的道長腊嗡。 經(jīng)常有香客問我,道長拾酝,這世上最難降的妖魔是什么燕少? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮蒿囤,結(jié)果婚禮上客们,老公的妹妹穿的比我還像新娘。我一直安慰自己材诽,他們只是感情好底挫,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著脸侥,像睡著了一般建邓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上睁枕,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天官边,我揣著相機(jī)與錄音沸手,去河邊找鬼。 笑死注簿,一個胖子當(dāng)著我的面吹牛契吉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播诡渴,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼捐晶,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了玩徊?” 一聲冷哼從身側(cè)響起租悄,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎恩袱,沒想到半個月后泣棋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡畔塔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年潭辈,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片澈吨。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡把敢,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出谅辣,到底是詐尸還是另有隱情修赞,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布桑阶,位于F島的核電站柏副,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蚣录。R本人自食惡果不足惜割择,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望萎河。 院中可真熱鬧荔泳,春花似錦、人聲如沸虐杯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽擎椰。三九已至支子,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間确憨,已是汗流浹背译荞。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工瓤的, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吞歼。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓圈膏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親篙骡。 傳聞我的和親對象是個殘疾皇子稽坤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容