Распознавание изогнутого текста — различия между версиями
264269 (обсуждение | вклад) (Новая страница: «{{В разработке}} '''Распознавание текста''' {{---}} важная задача машинного обучения, решение…») |
264269 (обсуждение | вклад) (Внесены модели) |
||
| Строка 8: | Строка 8: | ||
В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста - horizontal, multi-oriented, curved (усл. горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей - до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях ([см./например] Mask R-CNN). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих датасетах. | В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста - horizontal, multi-oriented, curved (усл. горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей - до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях ([см./например] Mask R-CNN). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих датасетах. | ||
| − | == | + | == Модели, способные распознавать изогнутый текст == |
| + | Все представленные ниже модели показывают хорошие результаты, независимо от ориентации текста: | ||
| + | *TextFuseNet | ||
| + | *CharNet H-88 | ||
| + | *TextCohesion | ||
| + | *SA-Text | ||
| + | *PAN-640 | ||
| + | *DB-ResNet50 | ||
| + | *CRAFT | ||
| + | *SPCNET | ||
| + | *FTSN | ||
| + | *TextFilled | ||
| + | *TextSnake | ||
| + | *Mask TextSpotter | ||
| + | *CTD+TLOC (?) | ||
| + | *PAN | ||
| + | *PSENet | ||
| + | *SLPR | ||
Версия 18:03, 15 января 2021
Распознавание текста — важная задача машинного обучения, решение которой позволит получать огромное количество информации из окружающего мира без участия человека. Распознавание изогнутого текста, в частности, одна из проблем, лежащих на пути решения данной задачи.
Людей, работающих в данном направлении, для удобства условно будем называть "исследователями".
Вступление
В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста - horizontal, multi-oriented, curved (усл. горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей - до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях ([см./например] Mask R-CNN). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих датасетах.
Модели, способные распознавать изогнутый текст
Все представленные ниже модели показывают хорошие результаты, независимо от ориентации текста:
- TextFuseNet
- CharNet H-88
- TextCohesion
- SA-Text
- PAN-640
- DB-ResNet50
- CRAFT
- SPCNET
- FTSN
- TextFilled
- TextSnake
- Mask TextSpotter
- CTD+TLOC (?)
- PAN
- PSENet
- SLPR