增強(qiáng)閱讀效果用于手寫(xiě)文檔圖像增強(qiáng)的改進(jìn)生成對(duì)抗網(wǎng)絡(luò)
用于手寫(xiě)文本識(shí)別的文檔通常會(huì)受到降級(jí)的影響。例如,歷史文檔可能會(huì)受到損壞的文本、灰塵或皺紋的影響。不正確的掃描過(guò)程或水印和圖章也可能導(dǎo)致問(wèn)題。經(jīng)典的圖像恢復(fù)技術(shù)試圖扭轉(zhuǎn)退化效應(yīng)。但是,模型可能會(huì)在清理圖像時(shí)使文本質(zhì)量變差。
因此,一組科學(xué)家提出了一種深度學(xué)習(xí)模型,該模型不僅可以從手寫(xiě)圖像中學(xué)習(xí)其參數(shù),還可以從相關(guān)文本中學(xué)習(xí)其參數(shù)。它基于生成對(duì)抗網(wǎng)絡(luò) (GAN),并具有評(píng)估恢復(fù)圖像可讀性的識(shí)別器。對(duì)退化的阿拉伯語(yǔ)和拉丁語(yǔ)文檔進(jìn)行的實(shí)驗(yàn)證明了所提出模型的有效性。還表明,從退化域到干凈版本逐步訓(xùn)練識(shí)別器可以提高識(shí)別性能。
由于多種原因,手寫(xiě)文檔圖像可能會(huì)受到嚴(yán)重退化的影響:紙張老化、日常生活場(chǎng)景(皺紋、灰塵等)、掃描過(guò)程不良等。這些工件給當(dāng)前的手寫(xiě)文本識(shí)別 (HTR) 算法帶來(lái)了許多可讀性問(wèn)題,并嚴(yán)重降低了它們的效率。在本文中,我們提出了一種基于生成對(duì)抗網(wǎng)絡(luò) (GAN) 的端到端架構(gòu),以將退化的文檔恢復(fù)為干凈可讀的形式。與最知名的文檔二值化方法試圖提高退化文檔的視覺(jué)質(zhì)量不同,所提出的架構(gòu)集成了一個(gè)手寫(xiě)文本識(shí)別器,可以提高生成的文檔圖像的可讀性。據(jù)我們所知,這是在二值化手寫(xiě)文檔時(shí)使用文本信息的第一項(xiàng)工作。對(duì)退化的阿拉伯語(yǔ)和拉丁語(yǔ)手寫(xiě)文檔進(jìn)行的大量實(shí)驗(yàn)證明了將識(shí)別器集成到 GAN 架構(gòu)中的有用性,這提高了退化文檔圖像的視覺(jué)質(zhì)量和可讀性。此外,我們?cè)?H-DIBCO 2018 挑戰(zhàn)賽中的表現(xiàn)優(yōu)于現(xiàn)有技術(shù),在此任務(wù)中,我們使用合成降級(jí)的拉丁手寫(xiě)圖像對(duì)我們的預(yù)訓(xùn)練模型進(jìn)行了微調(diào)。
標(biāo)簽: