使用Tesseract識(shí)別圖片中的股票代碼

概述

Tesseract是一個(gè)OCR(Optical Character Recognition哩掺,光學(xué)字符識(shí)別)引擎溯警,在這里我用來開發(fā)Android上能識(shí)別一張圖片上的股票代碼APP功能。

Github地址

https://github.com/tesseract-ocr/tesseract

這個(gè)庫非常龐大甲锡,反正我是看不出怎么使用在Android開發(fā)上拒名,于是我找了另一個(gè)庫,https://github.com/rmtheis/tess-two 锄奢,應(yīng)該是基于前面的庫制作的失晴。

添加依賴

dependencies {
    compile 'com.rmtheis:tess-two:8.0.0'
}

布局

布局非常簡(jiǎn)單,只有右上角一個(gè)導(dǎo)入按鈕:


布局

xml

<?xml version="1.0" encoding="utf-8"?>
<RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android"
    android:layout_width="match_parent"
    android:layout_height="match_parent"
    android:paddingBottom="@dimen/activity_vertical_margin"
    android:paddingLeft="@dimen/activity_horizontal_margin"
    android:paddingRight="@dimen/activity_horizontal_margin"
    android:paddingTop="@dimen/activity_vertical_margin">

<!--顯示識(shí)別結(jié)果-->
    <TextView
        android:id="@+id/text"
        android:layout_width="wrap_content"
        android:layout_height="wrap_content"/>
<!--識(shí)別過程中的進(jìn)度條-->
    <ProgressBar
        android:id="@+id/progressBar"
        android:layout_width="match_parent"
        android:layout_height="wrap_content"
        android:indeterminate="true"
        android:visibility="gone"
        android:layout_centerInParent="true"/>
<!--顯示識(shí)別圖片前處理過后的圖片-->
    <ImageView
        android:layout_width="wrap_content"
        android:layout_height="wrap_content"
        android:layout_alignParentRight="true"
        android:layout_alignParentEnd="true"
        android:id="@+id/imageView" />
</RelativeLayout>

導(dǎo)入識(shí)別庫

先去這里下載識(shí)別庫拘央,少了這個(gè)識(shí)別庫沒有使用的涂屁,而且不同的識(shí)別庫識(shí)別準(zhǔn)確率也是不一樣的,當(dāng)你發(fā)現(xiàn)準(zhǔn)確率低是可以嘗試換一個(gè)識(shí)別庫或許會(huì)改善灰伟,里面有很多語言的識(shí)別庫拆又,其他語言的不需要關(guān)心,我們只需要記住開頭chi_sim的是簡(jiǎn)體中文栏账,chi_tra是繁體中文帖族,eng是英語,eus應(yīng)該是美式英語挡爵。我使用的是eus.traineddata竖般。
先在項(xiàng)目里新建assert目錄-tessdata目錄-eus.traineddata。

image.png

可以編寫代碼了

直接看代碼

public class MainActivity extends AppCompatActivity {

    private static final String TAG = MainActivity.class.getSimpleName();
    private static final int REQUEST_PICK_PHOTO = 1;
    private TessBaseAPI tessBaseAPI;
    private static final String lang = "eus";//識(shí)別庫
    //private static final String lang = "chi_sim";
    private static final String DATA_PATH =     Environment.getExternalStorageDirectory().toString() + "/Tesseract/";
    private static final String TESSDATA = "tessdata";
    String result = "empty";
    private TextView text;
    private ProgressBar progressBar;
    private ImageView imageView;


    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
        Toolbar toolbar = (Toolbar) findViewById(R.id.toolbar);
        setSupportActionBar(toolbar);
        text = (TextView) findViewById(R.id.text);
        progressBar = (ProgressBar) findViewById(R.id.progressBar);
        imageView = (ImageView) findViewById(R.id.imageView);
    }

    @Override
    public boolean onCreateOptionsMenu(Menu menu) {
        getMenuInflater().inflate(R.menu.menu_main, menu);
        return true;
    }

    @Override
    public boolean onOptionsItemSelected(MenuItem item) {
        int id = item.getItemId();
        if (id == R.id.dao_ru) {
            //打開圖庫選擇圖片
            pickPhoto();
        }
        return super.onOptionsItemSelected(item);
    }

    private void pickPhoto() {
        Intent intent = new Intent(Intent.ACTION_PICK, android.provider.MediaStore.Images.Media.EXTERNAL_CONTENT_URI);
        startActivityForResult(intent, REQUEST_PICK_PHOTO);
    }

    @Override
    protected void onActivityResult(int requestCode, int resultCode, Intent data) {
        super.onActivityResult(requestCode,resultCode,data);
        if (requestCode == REQUEST_PICK_PHOTO && resultCode == RESULT_OK) {
            //首先需要把a(bǔ)ssert目錄中的識(shí)別庫拷貝到手機(jī)中
            prepareTesseract();
            Uri uri = data.getData();
            BitmapFactory.Options options = new BitmapFactory.Options();
            options.inSampleSize = 1;
            Bitmap bitmap = BitmapFactory.decodeFile(getRealImageFilePath(this,uri));
            //把圖片處理成黑白的茶鹃,有利于識(shí)別
            bitmap = toHeibai(bitmap);
            //識(shí)別耗時(shí)涣雕,放在異步處理
            new MyAsyckTask().execute( bitmap);
        }
    }


    public static String getRealImageFilePath( Context context,Uri uri) {
        if( uri == null ) {
            return null;
        }
        String[] filePathColumn = {MediaStore.Images.Media.DATA};
        Cursor cursor = context.getContentResolver().query(uri, filePathColumn, null, null, null);
        if (cursor!=null){
            if (cursor.moveToFirst()) {
                int columnIndex = cursor.getColumnIndex(filePathColumn[0]);
                String yourRealPath = cursor.getString(columnIndex);
                return yourRealPath;
            }
        cursor.close();
        }
        return uri.getPath();
    }
    //在手機(jī)中新建目錄
    private void prepareDirectory(String path) {

        File dir = new File(path);
        if (!dir.exists()) {
            if (!dir.mkdirs()) {
                Log.e(TAG, "ERROR: Creation of directory " + path + " failed, check does Android Manifest have permission to write to external storage.");
            }
        } else {
            Log.i(TAG, "Created directory " + path);
        }
    }
    
    private void prepareTesseract() {
        try {
            prepareDirectory(DATA_PATH + TESSDATA);
        } catch (Exception e) {
            e.printStackTrace();
        }
        copyTessDataFiles(TESSDATA);
    }
    //拷貝識(shí)別庫到手機(jī)
    private void copyTessDataFiles(String path) {
        try {
            String fileList[] = getAssets().list(path);

            for (String fileName : fileList) {

                // open file within the assets folder
                // if it is not already there copy it to the sdcard
                String pathToDataFile = DATA_PATH + path + "/" + fileName;
                if (!(new File(pathToDataFile)).exists()) {

                    InputStream in = getAssets().open(path + "/" + fileName);

                    OutputStream out = new FileOutputStream(pathToDataFile);

                    // Transfer bytes from in to out
                    byte[] buf = new byte[1024];
                    int len;

                    while ((len = in.read(buf)) > 0) {
                        out.write(buf, 0, len);
                    }
                    in.close();
                    out.close();

                    Log.d(TAG, "Copied " + fileName + "to tessdata");
                }
            }
        } catch (IOException e) {
            Log.e(TAG, "Unable to copy files to tessdata " + e.toString());
        }
    }

    //真正從圖片提取內(nèi)容的方法
    private String extractText(Bitmap bitmap) {
        try {
            tessBaseAPI = new TessBaseAPI();
        } catch (Exception e) {
            Log.e(TAG, e.getMessage());
            if (tessBaseAPI == null) {
                Log.e(TAG, "TessBaseAPI is null. TessFactory not returning tess object.");
            }
        }

        tessBaseAPI.init(DATA_PATH, lang);

//       //EXTRA SETTINGS 提取設(shè)置
//        //For example if we only want to detect numbers    白名單
        tessBaseAPI.setVariable(TessBaseAPI.VAR_CHAR_WHITELIST, "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_");
        //tessBaseAPI.setVariable(TessBaseAPI.VAR_CHAR_WHITELIST, "0123456789");
//
//        //blackList Example   黑名單
//        tessBaseAPI.setVariable(TessBaseAPI.VAR_CHAR_BLACKLIST, "!@#$%^&*()_+=-qwertyuiop[]}{POIU" +
//                "YTRWQasdASDfghFGHjklJKLl;L:'\"\\|~`xcvXCVbnmBNM,./<>?");

        Log.d(TAG, "Training file loaded");
        tessBaseAPI.setImage(bitmap);

        String extractedText = "empty result";
        try {
            extractedText = tessBaseAPI.getUTF8Text();
        } catch (Exception e) {
            Log.e(TAG, "Error in recognizing text.");
        }
        tessBaseAPI.end();
        return extractedText;
    }

    //提取圖片內(nèi)容采用異步執(zhí)行
    private class MyAsyckTask extends AsyncTask<Bitmap,Void,String>{

        @Override
        protected void onPreExecute() {
            progressBar.setVisibility(View.VISIBLE);
            super.onPreExecute();
        }

        @Override
        protected String doInBackground(final Bitmap... params) {
            runOnUiThread(new Runnable() {
                @Override
                public void run() {
                    imageView.setImageBitmap(params[0]);
                }
            });
            return extractText(params[0]);
        }

        @Override
        protected void onPostExecute(String s) {
            progressBar.setVisibility(View.GONE);
//            String pattern = "\\d{5,6}\\b|\\b[A-Z_]+\\b";//正則表達(dá)式過濾
            String pattern = "\\d{5,6}\\b";//正則表達(dá)式過濾
            Pattern p = Pattern.compile(pattern);
            Matcher m = p.matcher(s);
            StringBuilder formatStringBuilder = new StringBuilder();
            while (m.find()) {
                formatStringBuilder.append(m.group()).append("\n");
//                Log.i(TAG,"formatStringBuilder---------"+formatStringBuilder.toString());
            }

            text.setText(formatStringBuilder);
        }
    }

    //轉(zhuǎn)換成黑白照片,更利于識(shí)別圖片
    public static Bitmap toHeibai(Bitmap mBitmap) {
        int mBitmapWidth = 0;
        int mBitmapHeight = 0;
        //截取圖片寬度的3分之一
        mBitmapWidth = mBitmap.getWidth() / 3;
        mBitmapHeight = mBitmap.getHeight();
        Bitmap bmpReturn = Bitmap.createBitmap(mBitmapWidth, mBitmapHeight,
                Bitmap.Config.ARGB_8888);
        Bitmap resizeBmp;
        int iPixel = 0;
        int wTime = 0;//用于判斷是白色背景的圖片
        int bTime = 0;//用于判斷是黑色背景的圖片
        for (int i = 0; i < mBitmapWidth; i++) {
            for (int j = 0; j < mBitmapHeight; j++) {
                int curr_color = mBitmap.getPixel(i, j);
                int avg = (Color.red(curr_color) + Color.green(curr_color) + Color
                        .blue(curr_color)) / 3;
                if (avg >= 190)//修改這個(gè)值會(huì)影響字體顏色的深淺闭翩,這個(gè)項(xiàng)目的截圖的股票代碼字體比較暗挣郭,設(shè)置成190有利于識(shí)別,
                {
                    iPixel = 255;
                    wTime++;
                } else if (avg < 190 && avg > 100) {
                    if (wTime > bTime) {//當(dāng)為白色的背景圖片時(shí)
                        iPixel = 0;
                    } else {
                        iPixel = 255;
                    }
                } else {
                    iPixel = 0;
                    bTime++;
                }
                int modif_color = Color.argb(255, iPixel, iPixel, iPixel);

                bmpReturn.setPixel(i, j, modif_color);
            }
        }
        if (mBitmap != null) {
            mBitmap.recycle();
            mBitmap = null;
        }
        resizeBmp = ThumbnailUtils.extractThumbnail(bmpReturn, mBitmapWidth, mBitmapHeight);
        return resizeBmp;
    }
}

相信注釋已經(jīng)很明白疗韵。來看圖(不知道用什么工具制作效果圖兑障,有小伙伴知道告訴我一聲)


選擇圖片
識(shí)別結(jié)果和處理過后的圖片

會(huì)出現(xiàn)一些識(shí)別錯(cuò)誤的東西,但是沒有關(guān)系,可以完善正則去匹配流译,也可以完善功能讓用戶選擇需要的逞怨。

項(xiàng)目地址

github地址

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市先蒋,隨后出現(xiàn)的幾起案子骇钦,更是在濱河造成了極大的恐慌,老刑警劉巖竞漾,帶你破解...
    沈念sama閱讀 217,542評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件眯搭,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡业岁,警方通過查閱死者的電腦和手機(jī)鳞仙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來笔时,“玉大人棍好,你說我怎么就攤上這事≡使ⅲ” “怎么了借笙?”我有些...
    開封第一講書人閱讀 163,912評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長较锡。 經(jīng)常有香客問我业稼,道長,這世上最難降的妖魔是什么蚂蕴? 我笑而不...
    開封第一講書人閱讀 58,449評(píng)論 1 293
  • 正文 為了忘掉前任低散,我火速辦了婚禮,結(jié)果婚禮上骡楼,老公的妹妹穿的比我還像新娘熔号。我一直安慰自己,他們只是感情好鸟整,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評(píng)論 6 392
  • 文/花漫 我一把揭開白布引镊。 她就那樣靜靜地躺著,像睡著了一般篮条。 火紅的嫁衣襯著肌膚如雪弟头。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,370評(píng)論 1 302
  • 那天兑燥,我揣著相機(jī)與錄音,去河邊找鬼琴拧。 笑死降瞳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播挣饥,決...
    沈念sama閱讀 40,193評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼除师,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了扔枫?” 一聲冷哼從身側(cè)響起汛聚,我...
    開封第一講書人閱讀 39,074評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎短荐,沒想到半個(gè)月后倚舀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡忍宋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評(píng)論 3 335
  • 正文 我和宋清朗相戀三年痕貌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片糠排。...
    茶點(diǎn)故事閱讀 39,841評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡舵稠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出入宦,到底是詐尸還是另有隱情哺徊,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評(píng)論 5 345
  • 正文 年R本政府宣布乾闰,位于F島的核電站落追,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏汹忠。R本人自食惡果不足惜淋硝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望宽菜。 院中可真熱鬧谣膳,春花似錦、人聲如沸铅乡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽阵幸。三九已至花履,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間挚赊,已是汗流浹背诡壁。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留荠割,地道東北人妹卿。 一個(gè)月前我還...
    沈念sama閱讀 47,962評(píng)論 2 370
  • 正文 我出身青樓旺矾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親夺克。 傳聞我的和親對(duì)象是個(gè)殘疾皇子箕宙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容