Reconnaissance optique de caractères (OCR) : une IA d’Amazon réussit à lire les textes incurvés

Des chercheurs d’Amazon ont mis au point une intelligence artificielle (IA) pour améliorer la reconnaissance des textes incurvés. Baptisé TextTubes, cette technologie aurait un taux de réussite de 83,65%, supérieur donc à celui des méthodes similaires, proche de 76%.

Modélisation sous forme de tubes et non plus de rectangles

La reconnaissance optique de caractères (OCR), ou la conversion d’images de texte manuscrit ou imprimé en texte lisible par machine, est une science qui ne date pas d’aujourd’hui. Dès les années 70, les chercheurs ont voulu créer des machines capables de lire des textes pour les déclamer à leurs créateurs. Ils ont plus ou moins réussi, la principale difficulté étant de pouvoir déchiffrer des textes non rectilignes.

C’est pour résoudre cette difficulté que trois chercheurs d’Amazon (Seytre, Jon Wu et Alessandro Achille) ont développé ce qu’ils appellent des TextTubes. Ces détecteurs de texte incurvé dans des images naturelles modélisent ledit texte sous forme de tubes autour de leurs axes médians (milieu). Dans un article décrivant leur travail, les co-auteurs affirment que leur approche permet d’obtenir des résultats de pointe sur une référence OCR populaire.

Les chercheurs ont expliqué que l’ensemble du processus peut être décomposé en deux tâches : la détection de texte et la reconnaissance de texte. Dans la détection de texte, des indices contextuels sont utilisés pour localiser des caractères, des mots et des lignes; tandis que la reconnaissance de texte intervient pour transcrire leur contenu. Mais c’est plus facile à dire qu’à faire. Une déformation unique, des polices arbitraires ou des changements de point de vue peuvent compliquer la tâche.

Une précision supérieure aux méthodes similaires

Les chercheurs ont évalué les performances de TextTubes sur CTW-1500, un ensemble de données composé de 1 500 images collectées à partir de scènes naturelles et de bibliothèques d’images et de plus de 10 000 instances de texte avec au moins une instance courbe par image. Egalement sur Total-Text, qui contient environ 1 255 formations images et 300 images de test avec une ou plusieurs instances de texte incurvé. Ils rapportent qu’ils ont obtenu des résultats de pointe avec une précision de 83,65% sur CTW-1500, par rapport à la précision de 75,6% de la méthode la plus proche.

Un marché de 13,38 milliards de dollars d’ici 2025

Si l’on se fie aux résultats, TextTubes pourraient énormément bénéficier aux entreprises qui dépendent de l’OCR. On estime aujourd’hui que le papier reste dans plus de 80% des processus numériques et qu’environ 97% des petites entreprises utilisent encore des chèques papier. C’est peut-être la raison pour laquelle le marché des solutions OCR devrait valoir 13,38 milliards de dollars d’ici 2025, selon Grand View Research.

Brain Boost