2023-02-05【ViTSTR】移動設備的STR模型，提速的同時精度不減

文獻編號：5

文獻著作信息：

Vision Transformer for Fast and Efficient Scene Text Recognition
論文地址
 代碼地址
18 May 2021

研究主題：

Scene text recognition
Transformer
Data augmentation

研究問題：

低參數量摇天，低計算量的STR模型
主要是精度不變情況下的提速

研究原因：

因為大多數只考慮了識別的精度宠哄，并沒有考慮到移動設備的需求

我的收獲和疑問

為了平衡準確性乓旗、速度和效率的重要性违孝，作者建議利用視覺轉換器(Vit)的簡單和高效的優(yōu)勢刹前。例如數據高效圖像轉換器(Deit)
Deit.pdf (arxiv.org)

ViT證明，僅使用transformer的encoder（好幾個連起來）就可以實現ImageNet識別中得到SOTA結果雌桑。
ViT繼承了transformer的所有特性喇喉，包括速度和計算效率
作者的框架也是這樣做的，因為圖片校坑，也需要位置編碼

用了【我的參考文獻3】的框架拣技，相同框架下，才能更好的比較不同模型的性能

MJ和ST 各用50%撒踪，如果用100%性能會下降
再自己寫論文時，可以把自己的參數設置寫成表格呈現給審稿人

研究設計：

作者試圖平衡準確性大渤、速度和效率制妄。準確性是指識別文本的正確性。速度是通過單位時間內處理多少文本圖像來衡量的泵三。效率可以用處理一張圖像所需的參數和計算(如FLOPS)的數量近似表示耕捞。參數的數量反映內存需求，而FLOPS估計完成任務所需的指令數量烫幕。理想的STR是精確和快速的俺抽，而只需要很少的計算資源。

研究發(fā)現：

參數量和精確度较曼、速度和計算量之間的權衡磷斧、+Aug使用了數據增強。幾乎所有版本的ViTSTR都處于或接近邊界捷犹，以最大限度地提高所有指標的性能弛饭，直線的斜率是隨著參數、速度或翻轉數量的增加而獲得的精度增益萍歉。坡度越陡越好侣颂。青色線包括具有數據增強功能的ViTSTR

使用Deit的模型權重，Deit簡單地是通過知識蒸餾訓練的VIT

自然場景中遇到的不同文本變體

對于機器來說枪孩，在人類環(huán)境中閱讀文本是一項具有挑戰(zhàn)性的任務憔晒，因為符號的可能外觀不同藻肄。圖2顯示了受曲率、字體樣式拒担、模糊嘹屯、旋轉、噪聲澎蛛、幾何圖形抚垄、照明、遮擋和分辨率影響的文本的示例谋逻。還有許多其他因素可能會影響文本圖像呆馁，例如天氣條件、相機傳感器缺陷毁兆、運動浙滤、照明等。

研究結論：

通過針對STR的數據增強气堕，ViTSTR可以顯著提高準確性纺腊，特別是對于不規(guī)則數據集。
當規(guī)模擴大時茎芭，ViTSTR保持在前沿揖膜，以平衡精度、速度和計算要求梅桩。

帶問題看論文：

數據集

由于缺乏大數據集的真實數據员舵，STR模型訓練的實踐是使用合成數據脑沿。使用兩個流行的數據集:1)MJSynth (MJ)[14]或也稱為Synth90k和2)SynthText (ST)[9]。

MJ

MJSynth (MJ)是一個合成生成的數據集马僻，由890萬逼真的文字圖像組成庄拇。MJSynth被設計成有3層:1)背景，2)前景和3)可選的陰影/邊框韭邓。它使用了1400種不同的字體措近。字體的字距、粗細女淑、下劃線和其他屬性是不同的瞭郑。MJSynth還利用了不同的背景效果，邊界/陰影渲染鸭你，基礎著色屈张，投影失真，自然圖像混合和噪聲袱巨。

ST

SynthText (ST)是另一個由550萬單詞圖像合成生成的數據集阁谆。SynthText是通過在自然圖像上混合合成文本生成的。它使用場景幾何愉老、紋理和表面法線來自然地混合和扭曲圖像中物體表面上的文本渲染场绿。與MJSynth類似，SynthText的文本使用隨機字體俺夕。文字圖像是從嵌入合成文本的自然圖像中裁剪出來的

在STR框架中裳凸，每個數據集占整個列車數據集的50%贱鄙。將兩個數據集100%地結合在一起會導致性能下降[我的參考文獻3]劝贸。圖6顯示了來自MJ和ST的示例圖像

真實世界數據集的樣本

測試數據集是由幾個小的公開的自然圖像文本STR數據集組成的。這些數據集通常分為兩組:1)常規(guī)和2)不規(guī)則

常規(guī)數據集的文本圖像是正面的逗宁，水平的映九，并且有最小的失真。IIIT5K-Words[23]瞎颗，街景文本(SVT) [37]件甥， ICDAR2003 (IC03)[22]和ICDAR2013 (IC13)[16]被認為是常規(guī)數據集捌议。同時，不規(guī)則數據集包含具有挑戰(zhàn)性外觀的文本引有，如彎曲瓣颅、垂直、透視譬正、低分辨率或扭曲宫补。ICDAR2015 (IC15)[15]、SVT Perspective (SVTP)[25]和CUTE80 (CT)[27]屬于不規(guī)則數據集曾我。圖7顯示了來自規(guī)則和不規(guī)則數據集的樣本粉怕。對于兩個數據集，只有測試分割用于評估

訓練設置

規(guī)則數據集

IIT5K包含3000張用于測試的圖像抒巢。圖像大多來自街景贫贝，如招牌、品牌標志蛉谜、門牌號或路牌稚晚。

SVT有647張圖片用于測試。文本圖像是從谷歌街景圖片裁剪型诚。

IC03包含來自ICDAR2003健壯閱讀比賽的1,110張測試圖像蜈彼。圖像是從自然場景中捕捉的。在刪除長度小于3個字符的單詞后俺驶，結果是860張圖像幸逆。然而，另外7張圖片被發(fā)現丟失了暮现。因此还绘，該框架還包含867個測試圖像版本∑艽—IC13是

IC03的擴展拍顷，共享類似的鏡像。IC13是為ICDAR2013健壯閱讀比賽而創(chuàng)建的塘幅。在文獻和框架中昔案，使用了兩個版本的測試數據集:1)857和2)1015。

不規(guī)則的數據集

IC15有ICDAR2015健壯閱讀比賽的文本圖片电媳。許多圖像模糊踏揣、嘈雜、旋轉匾乓，有時分辨率很低捞稿，因為這些圖像是使用谷歌眼鏡拍攝的，佩戴者處于無約束運動狀態(tài)。文獻和框架中使用了兩個版本:1)1811張和2)2077張圖像娱局。2077個版本包含旋轉彰亥、垂直、透視和彎曲的圖像衰齐。

SVTP有645張來自谷歌街景的測試圖像任斋。大多數是商業(yè)標牌的圖片。-

CT專注于從襯衫和產品標志中捕獲的彎曲文本圖像耻涛。該數據集有288張圖像仁卷。

表2列出了框架中推薦的培訓配置。我們復制了幾個強基線模型的結果:CRNN, R2AM, GCRNN, Rosetta, RARE, STAR-Net和TRBA犬第，以與ViTSTR進行公平的比較锦积。我們使用不同的隨機種子對所有模型進行至少5次訓練。保存測試數據集上表現最好的權重以獲得平均評估分數歉嗓。

對于ViTSTR丰介，我們使用相同的列車配置，除了輸入被調整為224 × 224鉴分，以匹配預訓練的DeiT[34]的尺寸哮幢。在訓練ViTSTR之前，會自動下載DeiT預訓練的權重文件志珍。ViTSTR可以端到端訓練橙垢，沒有凍結參數

表3和表4顯示了不同模型的性能得分。我們報告了準確性伦糯、速度柜某、參數數量和FLOPS，以得到折衷的總體情況敛纲，如圖1所示喂击。為了準確性，我們在大多數STR模型的大小寫敏感訓練和大小寫不敏感評估中遵循框架評估協(xié)議淤翔。對于速度翰绊，報告的數字是基于2080Ti GPU上的模型運行時間。與其他模型基準(如[19,20])不同旁壮，在評估之前监嗜，我們不旋轉垂直文本圖像(例如，表5 IC15)抡谐。

模型精確度裁奇。粗體：最高，下劃線：最高童叠，無數據增強框喳。

2080TiGPU上的模型精度、速度和計算要求

數據增強

使用專門針對STR的數據增強配方可以顯著提高ViTSTR的準確性厦坛，在圖8中五垮，我們可以看到不同之處

為STR設計的數據增強文本圖像的插圖

數據擴充會改變圖像，但不會改變其中文本的含義杜秸。表3顯示放仗，對不同的圖像變換(如反轉、彎曲撬碟、模糊诞挨、噪聲、扭曲呢蛤、旋轉惶傻、拉伸/壓縮、透視和收縮)應用RandAugment[6]后其障，ViTSTR-TINY的通用性提高了+1.8%银室，ViTSTR-Small的通用性提高了+1.6%，ViTSTR-Base的通用性提高了1.5%励翼。準確率提高最大的是不規(guī)則數據集蜈敢，例如CT(+9.2%極小，+6.6%小和基本)汽抚、SVTP(+3.8%極小抓狭，+3.3%小，+1.8%基本)造烁、IC15 1,811(+2.7%極小否过，+2.6%小，+1.7%基本)和IC15 2,077(+2.5%極小惭蟋，+2.2%小叠纹，+1.5%基本)。

注意力

圖9顯示了ViTSTR讀出文本圖像時的注意圖敞葛。當注意力適當地集中在每個字符上時誉察，ViTSTR也會關注相鄰的字符。也許惹谐，上下文是在單個符號預測期間放置的持偏。

image.png

STR模型的性能懲罰

在STR模型中每增加一個階段，就會獲得一個精度氨肌，但代價是速度變慢和計算量增加鸿秆。例如，RARE?→TRBA提高了2.2%的準確率怎囚，但需要388m的參數卿叽，并將任務完成速度降低了4 msec/image桥胞。像STAR-Net?→TRBA那樣將CTC階段替換為Attention，將計算速度從8.8 msec/張圖像顯著降低到22.8 msec/張圖像考婴，從而獲得額外的2.5%的精度贩虾。事實上，從CTC到Attention的變化所帶來的放緩沥阱，與在管道中添加BiLSTM或TPS相比缎罢，是> 10倍。在ViTSTR中，從小版本到小版本的過渡需要增加嵌入尺寸和頭部數量。不需要額外的階段疏日。為了獲得2.3%的精度芜飘，性能損失是參數數量增加16.1M。從微小到基本，獲得3.4%的精度的性能懲罰是額外的80.4M參數。在這兩種情況下，速度幾乎沒有變化酬蹋，因為我們在MLP和MSA中使用了相同的并行張量點積、softmax和加法運算層的變壓器編碼器抽莱。只有張量維度增加范抓，導致任務完成速度降低0.2到0.3 msec/圖像。與多級STR不同食铐，額外的模塊需要額外的連續(xù)的前向傳播層匕垫，這不能并行化，從而導致顯著的性能損失

失敗案例

表5顯示了ViTSTR-Small在每個測試數據集中失敗的預測樣本虐呻。導致預測錯誤的主要原因是相似符號混淆(如8和B, J和I)象泵，腳本字體(如Inc中的I)，字符眩光斟叼，垂直文本偶惠，嚴重彎曲的文本圖像和部分遮擋的符號。請注意朗涩，在某些情況下忽孽，即使是人類讀者也很容易犯錯誤。然而谢床，人類使用語義來解決歧義兄一。語義已經在最近的STR方法中使用了[26,39]

ViTSTR樣本未通過每個測試數據集的預測。從第一行到最后一行：輸入圖像识腿、地面實況出革、預測、數據集渡讼。錯誤的紅色符號預測

代碼閱讀

def get_args(is_train=True):
parser = argparse.ArgumentParser(description='STR')

# for test
parser.add_argument('--eval_data', required=not is_train, help='path to evaluation dataset')
parser.add_argument('--benchmark_all_eval', action='store_true', help='evaluate 10 benchmark evaluation datasets')
parser.add_argument('--calculate_infer_time', action='store_true', help='calculate inference timing')
parser.add_argument('--flops', action='store_true', help='calculates approx flops (may not work)')

# for train
parser.add_argument('--exp_name', help='Where to store logs and models')
parser.add_argument('--train_data', required=is_train, help='path to training dataset')
parser.add_argument('--valid_data', required=is_train, help='path to validation dataset')
parser.add_argument('--manualSeed', type=int, default=1111, help='for random seed setting')
parser.add_argument('--workers', type=int, help='number of data loading workers. Use -1 to use all cores.', default=4)
parser.add_argument('--batch_size', type=int, default=192, help='input batch size')
parser.add_argument('--num_iter', type=int, default=300000, help='number of iterations to train for')
parser.add_argument('--valInterval', type=int, default=2000, help='Interval between each validation')
parser.add_argument('--saved_model', default='', help="path to model to continue training")
parser.add_argument('--FT', action='store_true', help='whether to do fine-tuning')
parser.add_argument('--sgd', action='store_true', help='Whether to use SGD (default is Adadelta)')
parser.add_argument('--adam', action='store_true', help='Whether to use adam (default is Adadelta)')
parser.add_argument('--lr', type=float, default=1, help='learning rate, default=1.0 for Adadelta')
parser.add_argument('--beta1', type=float, default=0.9, help='beta1 for adam. default=0.9')
parser.add_argument('--rho', type=float, default=0.95, help='decay rate rho for Adadelta. default=0.95')
parser.add_argument('--eps', type=float, default=1e-8, help='eps for Adadelta. default=1e-8')
parser.add_argument('--grad_clip', type=float, default=5, help='gradient clipping value. default=5')
parser.add_argument('--baiduCTC', action='store_true', help='for data_filtering_off mode')
""" Data processing """
parser.add_argument('--select_data', type=str, default='MJ-ST',
                    help='select training data (default is MJ-ST, which means MJ and ST used as training data)')
parser.add_argument('--batch_ratio', type=str, default='0.5-0.5',
                    help='assign ratio for each selected data in the batch')
parser.add_argument('--total_data_usage_ratio', type=str, default='1.0',
                    help='total data usage ratio, this ratio is multiplied to total number of data.')
parser.add_argument('--batch_max_length', type=int, default=25, help='maximum-label-length')
parser.add_argument('--imgH', type=int, default=32, help='the height of the input image')
parser.add_argument('--imgW', type=int, default=100, help='the width of the input image')
parser.add_argument('--rgb', action='store_true', help='use rgb input')
parser.add_argument('--character', type=str,
                    default='0123456789abcdefghijklmnopqrstuvwxyz', help='character label')
parser.add_argument('--sensitive', action='store_true', help='for sensitive character mode')
parser.add_argument('--PAD', action='store_true', help='whether to keep ratio then pad for image resize')
parser.add_argument('--data_filtering_off', action='store_true', help='for data_filtering_off mode')

""" Model Architecture """
parser.add_argument('--Transformer', action='store_true', help='Use end-to-end transformer')

choices = ["vitstr_tiny_patch16_224", "vitstr_small_patch16_224", "vitstr_base_patch16_224", "vitstr_tiny_distilled_patch16_224", "vitstr_small_distilled_patch16_224"]
parser.add_argument('--TransformerModel', default=choices[0], help='Which vit/deit transformer model', choices=choices)
parser.add_argument('--Transformation', type=str, required=True, help='Transformation stage. None|TPS')
parser.add_argument('--FeatureExtraction', type=str, required=True,
                    help='FeatureExtraction stage. VGG|RCNN|ResNet')
parser.add_argument('--SequenceModeling', type=str, required=True, help='SequenceModeling stage. None|BiLSTM')
parser.add_argument('--Prediction', type=str, required=True, help='Prediction stage. None|CTC|Attn')
parser.add_argument('--num_fiducial', type=int, default=20, help='number of fiducial points of TPS-STN')
parser.add_argument('--input_channel', type=int, default=1,
                    help='the number of input channel of Feature extractor')
parser.add_argument('--output_channel', type=int, default=512,
                    help='the number of output channel of Feature extractor')
parser.add_argument('--hidden_size', type=int, default=256, help='the size of the LSTM hidden state')

# selective augmentation 
# can choose specific data augmentation
parser.add_argument('--issel_aug', action='store_true', help='Select augs')
parser.add_argument('--sel_prob', type=float, default=1., help='Probability of applying augmentation')
parser.add_argument('--pattern', action='store_true', help='Pattern group')
parser.add_argument('--warp', action='store_true', help='Warp group')
parser.add_argument('--geometry', action='store_true', help='Geometry group')
parser.add_argument('--weather', action='store_true', help='Weather group')
parser.add_argument('--noise', action='store_true', help='Noise group')
parser.add_argument('--blur', action='store_true', help='Blur group')
parser.add_argument('--camera', action='store_true', help='Camera group')
parser.add_argument('--process', action='store_true', help='Image processing routines')

# use cosine learning rate decay
parser.add_argument('--scheduler', action='store_true', help='Use lr scheduler')

parser.add_argument('--intact_prob', type=float, default=0.5, help='Probability of not applying augmentation')
parser.add_argument('--isrand_aug', action='store_true', help='Use RandAug')
parser.add_argument('--augs_num', type=int, default=3, help='Number of data augment groups to apply. 1 to 8.')
parser.add_argument('--augs_mag', type=int, default=None, help='Magnitude of data augment groups to apply. None if random.')

# for comparison to other augmentations
parser.add_argument('--issemantic_aug', action='store_true', help='Use Semantic')
parser.add_argument('--isrotation_aug', action='store_true', help='Use ')
parser.add_argument('--isscatter_aug', action='store_true', help='Use ')
parser.add_argument('--islearning_aug', action='store_true', help='Use ')

# orig paper uses this for fast benchmarking
parser.add_argument('--fast_acc', action='store_true', help='Fast average accuracy computation')

parser.add_argument('--infer_model', type=str,
                    default=None, help='generate inference jit model')
parser.add_argument('--quantized', action='store_true', help='Model quantization')
parser.add_argument('--static', action='store_true', help='Static model quantization')
args = parser.parse_args()
return

傳參

opt = get_args()

模型

請忽略縮進骂束，需要源代碼可去github上下載

class Model(nn.Module):

def __init__(self, opt):
    super(Model, self).__init__()
    self.opt = opt
    self.stages = {'Trans': opt.Transformation, 'Feat': opt.FeatureExtraction,
                   'Seq': opt.SequenceModeling, 'Pred': opt.Prediction,
                   'ViTSTR': opt.Transformer}

    """ Transformation """
    if opt.Transformation == 'TPS':
        self.Transformation = TPS_SpatialTransformerNetwork(
            F=opt.num_fiducial, I_size=(opt.imgH, opt.imgW), I_r_size=(opt.imgH, opt.imgW), I_channel_num=opt.input_channel)
    else:
        print('No Transformation module specified')

    if opt.Transformer:
        self.vitstr= create_vitstr(num_tokens=opt.num_class, model=opt.TransformerModel)
        return

    """ FeatureExtraction """
    if opt.FeatureExtraction == 'VGG':
        self.FeatureExtraction = VGG_FeatureExtractor(opt.input_channel, opt.output_channel)
    elif opt.FeatureExtraction == 'RCNN':
        self.FeatureExtraction = RCNN_FeatureExtractor(opt.input_channel, opt.output_channel)
    elif opt.FeatureExtraction == 'ResNet':
        self.FeatureExtraction = ResNet_FeatureExtractor(opt.input_channel, opt.output_channel)
    else:
        raise Exception('No FeatureExtraction module specified')
    self.FeatureExtraction_output = opt.output_channel  # int(imgH/16-1) * 512
    self.AdaptiveAvgPool = nn.AdaptiveAvgPool2d((None, 1))  # Transform final (imgH/16-1) -> 1

    """ Sequence modeling"""
    if opt.SequenceModeling == 'BiLSTM':
        self.SequenceModeling = nn.Sequential(
            BidirectionalLSTM(self.FeatureExtraction_output, opt.hidden_size, opt.hidden_size),
            BidirectionalLSTM(opt.hidden_size, opt.hidden_size, opt.hidden_size))
        self.SequenceModeling_output = opt.hidden_size
    else:
        print('No SequenceModeling module specified')
        self.SequenceModeling_output = self.FeatureExtraction_output

    """ Prediction """
    if opt.Prediction == 'CTC':
        self.Prediction = nn.Linear(self.SequenceModeling_output, opt.num_class)
    elif opt.Prediction == 'Attn':
        self.Prediction = Attention(self.SequenceModeling_output, opt.hidden_size, opt.num_class)
    else:
        raise Exception('Prediction is neither CTC or Attn')

def forward(self, input, text, is_train=True, seqlen=25):
    """ Transformation stage """
    if not self.stages['Trans'] == "None":
        input = self.Transformation(input)

    if self.stages['ViTSTR']:
        prediction = self.vitstr(input, seqlen=seqlen)
        return prediction

    """ Feature extraction stage """
    visual_feature = self.FeatureExtraction(input)
    visual_feature = self.AdaptiveAvgPool(visual_feature.permute(0, 3, 1, 2))  # [b, c, h, w] -> [b, w, c, h]
    visual_feature = visual_feature.squeeze(3)

    """ Sequence modeling stage """
    if self.stages['Seq'] == 'BiLSTM':
        contextual_feature = self.SequenceModeling(visual_feature)
    else:
        contextual_feature = visual_feature  # for convenience. this is NOT contextually modeled by BiLSTM

    """ Prediction stage """
    if self.stages['Pred'] == 'CTC':
        prediction = self.Prediction(contextual_feature.contiguous())
    else:
        prediction = self.Prediction(contextual_feature.contiguous(), text, is_train, batch_max_length=self.opt.batch_max_length)

    return prediction

沒有數據增強的訓練

RANDOM=$$

CUDA_VISIBLE_DEVICES=0 python3 train.py --train_data data_lmdb_release/training
--valid_data data_lmdb_release/evaluation --select_data MJ-ST
--batch_ratio 0.5-0.5 --Transformation None --FeatureExtraction None \
--SequenceModeling None --Prediction None --Transformer
--TransformerModel=vitstr_tiny_patch16_224 --imgH 224 --imgW 224
--manualSeed=$RANDOM --sensitive

無特征提取耳璧，序列模型，只有transformer

最后編輯于：2023.02.06 10:41:52

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末展箱，一起剝皮案震驚了整個濱河市旨枯，隨后出現的幾起案子，更是在濱河造成了極大的恐慌析藕，老刑警劉巖召廷，帶你破解...
沈念sama閱讀 211,194評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件凳厢，死亡現場離奇詭異账胧，居然都是意外死亡，警方通過查閱死者的電腦和手機先紫，發(fā)現死者居然都...
沈念sama閱讀 90,058評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門治泥，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人遮精，你說我怎么就攤上這事居夹。” “怎么了本冲？”我有些...
開封第一講書人閱讀 156,780評論 0贊 346
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵准脂，是天一觀的道長。經常有香客問我檬洞，道長狸膏，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,388評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任添怔，我火速辦了婚禮湾戳，結果婚禮上，老公的妹妹穿的比我還像新娘广料。我一直安慰自己砾脑，他們只是感情好，可當我...
茶點故事閱讀 65,430評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布艾杏。她就那樣靜靜地躺著韧衣，像睡著了一般。火紅的嫁衣襯著肌膚如雪购桑。梳的紋絲不亂的頭發(fā)上汹族，一...
開封第一講書人閱讀 49,764評論 1贊 290
城市分裂傳說
那天，我揣著相機與錄音其兴，去河邊找鬼顶瞒。笑死，一個胖子當著我的面吹牛元旬，可吹牛的內容都是我干的榴徐。我是一名探鬼主播守问，決...
沈念sama閱讀 38,907評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼坑资！你這毒婦竟也來了耗帕？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 37,679評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤袱贮，失蹤者是張志新（化名）和其女友劉穎仿便，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體攒巍，經...
沈念sama閱讀 44,122評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡嗽仪，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,459評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了柒莉。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片闻坚。...
茶點故事閱讀 38,605評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖兢孝，靈堂內的尸體忽然破棺而出窿凤，到底是詐尸還是另有隱情，我是刑警寧澤跨蟹，帶...
沈念sama閱讀 34,270評論 4贊 329
?日本核電站爆炸內幕
正文年R本政府宣布雳殊，位于F島的核電站，受9級特大地震影響窗轩，放射性物質發(fā)生泄漏夯秃。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,867評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一品姓、第九天我趴在偏房一處隱蔽的房頂上張望寝并。院中可真熱鬧，春花似錦腹备、人聲如沸衬潦。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,734評論 0贊 21
一樁弒父案植酥，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽镀岛。三九已至，卻和暖如春友驮，著一層夾襖步出監(jiān)牢的瞬間漂羊，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,961評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工卸留，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留走越，地道東北人。一個月前我還...
沈念sama閱讀 46,297評論 2贊 360
代替公主和親
正文我出身青樓耻瑟，卻偏偏與公主長得像旨指，于是被迫代替她去往敵國和親赏酥。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 43,472評論 2贊 348

2023-02-05【ViTSTR】移動設備的STR模型牵舱，提速的同時精度不減

2023-02-05【ViTSTR】移動設備的STR模型，提速的同時精度不減

文獻編號：5

文獻著作信息：

研究主題：

研究問題：

研究原因：

我的收獲和疑問

研究設計：

研究發(fā)現：

研究結論：

帶問題看論文：

相關工作

數據集

MJ

ST

規(guī)則數據集

不規(guī)則的數據集

數據增強

注意力

STR模型的性能懲罰

失敗案例

代碼閱讀

推薦閱讀更多精彩內容

2023-02-05【ViTSTR】移動設備的STR模型，提速的同時精度不減

文獻編號：5

文獻著作信息：

研究主題：

研究問題：

研究原因：

我的收獲和疑問

研究設計：

研究發(fā)現：

研究結論：

帶問題看論文：

相關工作

數據集

MJ

ST

規(guī)則數據集

不規(guī)則的數據集

數據增強

注意力

STR模型的 性能懲罰

失敗案例

代碼閱讀

推薦閱讀更多精彩內容

STR模型的性能懲罰