Зарегистрируйте бизнес в Тинькофф и получите бонусы до 500 000 Р

Зарегистрируйте бизнес в Тинькофф и получите бонусы до 500 000 Р

Подробнее
Идеи для бизнесаБизнес с нуляМаркетплейсыВопросы–ответыЖизнь вне работыСправочник
Идеи для бизнесаБизнес с нуляМаркетплейсыВопросы–ответыЖизнь вне работыСправочник

Как технология OCR помогает автоматизировать оцифровку миллионов страниц


Какие задачи помогают решать OCR-системы и каким компаниям они необходимы


Эту статью написал участник сообщества

Виктор Горюнов

Виктор Горюнов

Директор продукта SOICA в компания SL Soft

Редакция «Бизнес-секретов» бережно сохранила авторский стиль, орфографию и пунктуацию — наши модераторы ничего не меняли

Написать статью
Поделиться

Какие задачи помогают решать OCR-системы и каким компаниям они необходимы


Эту статью написал участник сообщества

Виктор Горюнов

Виктор Горюнов

Директор продукта SOICA в компания SL Soft

Редакция «Бизнес-секретов» бережно сохранила авторский стиль, орфографию и пунктуацию — наши модераторы ничего не меняли

Написать статью

Программы класса OCR (Optical Character Recognition — оптическое распознавание символов) появились очень давно. Они хорошо знакомы тем, кто переводит в цифру тексты при помощи сканера. Если упростить, то можно сказать, что OCR позволяет «прочитать» текст на картинке и перевести его в редактируемый формат или в PDF с текстовым слоем. Это применение OCR-решений и до сих пор остается основным.

Как складывается ситуация на рынке OCR сегодня

За годы, которые прошли с момента появления такого софта, радикально изменился и характер работы с документами. Большинство предприятий частично перешли на использование цифровых документов и обмениваются ими с контрагентами при помощи систем электронного документооборота (СЭД). В результате объем документов, которые создаются и хранятся на бумаге, резко сократился. Некоторые бизнесы, особенно микропредприятия и ИП, и вовсе обходятся без них.

Казалось бы, OCR-системы должны стать нишевым решением, а область их применения, как и востребованность таких решений в целом, должна сузиться. Но сегмент OCR не просто жив, он растет. Аналитики из GlobalData Plc считают, что по итогам текущего года глобальный рынок оптического распознавания символов составит почти 12 млрд долларов, при этом в 2023—2030 годах он будет расти примерно на 15% в год.

Российский рынок OCR в 2022 году составил 6,4 млрд рублей и, по разным оценкам, будет расти на 10—30% в год. Причина позитивного прогноза — в видоизменении самих OCR-систем и в появлении новых сфер их применения.

Пример последовательной очереди модулей
Пример разветвленной очереди модулей, с возможностью выполнять дополнительные блоки параллельно

Как обычно используются OCR-системы

Итак, оцифровка бумажных документов остается классической сферой использования OCR. Конечно, она сократилась за годы развития электронного делопроизводства, но тем не менее остается весьма обширной. Оцифровкой своих архивов занимаются крупные организации, в первую очередь — банки, страховые компании и промышленные предприятия.

Более того, летом прошлого года президент страны дал поручение о переводе в цифру документов, которые хранятся в государственных архивах России, а это порядка 520 млн единиц хранения, или 60 млрд страниц, многие из которых заполнены с двух сторон. Этот проект в середине 2022 года эксперты оценивали в 200 млрд рублей, а срок его осуществления может растянуться на 100 лет.

Оцифровка исторических архивов — вообще одно из перспективных направлений применения OCR. Здесь эти системы могут использоваться не только для перевода документов в цифру, но и для их реставрации. При этом OCR-технологии актуальны не только для государственных, но и для корпоративных архивов. Задача оцифровки стоит, к примеру, перед одним из НИИ горной промышленности. Здесь предстоит оцифровать порядка 400 млн страниц.

Здесь же можно выделить такую подзадачу, как обработка секретной информации на бумажных носителях. Применение OCR позволяет вести эту работу, не привлекая персонал, ведь каждый оператор в этом случае должен будет иметь соответствующие допуски.

В электронном делопроизводстве используется такой важный элемент учета, как карточка документа. Она содержит значимую информацию, которая применяется в различных информационных системах, и позволяет идентифицировать документ. Сегодня OCR применяются и для создания таких карточек, давая возможность автоматизировать этот трудоемкий процесс.

Пример создания карточки документа

В электронном архиве к каждому оцифрованному документу должен прилагаться его скан-образ. Это необходимо для того, чтобы отследить историю работы с документом, например, при проверке того, проводились ли в связи с ним какие-либо финансовые операции. Такая потребность часто возникает в учетных и бухгалтерских информационных системах. Современные OCR позволяют найти необходимый образ в массиве отсканированных документов и прикрепить его к электронному документу.

Еще одна задача, которую решают современные OCR, — проверка и очистка документов, которые поступают от контрагентов. Они могут быть неудовлетворительного качества (плохое разрешение картинки, перевернутое изображение и т. п.). Исправлять такие огрехи в программах для работы с иллюстрациями долго, поэтому для потоковой автоматической очистки документов часто применяются OCR — современные системы имеют соответствующую функциональность.

Нестандартные задачи для OCR

Перечисленные выше задачи — типовые. Они решаются при помощи OCR. Но есть и необычные сферы применения технологии. Она может использоваться для вычитки согласованных договоров и проверки наличия в них всех необходимых реквизитов, их корректности и т. д. С помощью OCR сегодня можно работать с различными версиями документов — в частности, в тех случаях, когда в переписке нужно найти последнюю согласованную с контрагентом версию и отправить ее в систему электронного документооборота. Применимы такие решения и при сквозной проверке комплектов документов, например, на принадлежность к одному юридическому лицу.

Интересная область применения OCR — анонимизация документов, то есть процесс удаления из них персональных данных. Пример такой анонимизации — удаление или маскирование при помощи блюра или замазки паспортных данных. В этом случае в документе остается упоминание о том, что человеком был предъявлен паспорт и его личность установлена, а сами паспортные данные (серия, номер и дата выдачи) удаляются. Таким образом, может быть две версии документа: копия оригинала для первичной выверки и хранения и анонимизированная версия для более широкого применения.

Другой пример анонимизации документов — одной из крупных компаний недавно пришлось удалить из множества PDF-документов логотипы. Все эти документы были в свое время получены из компаний, которые позже покинули российский рынок, а их российские партнеры и заказчики в этой связи должны были скрыть источники происхождения документов. Ручная обработка потребовала бы больших трудозатрат, а функциональность современных OCR позволила выполнить эту задачу в автоматическом режиме.

Возможны и другие нестандартные области применения OCR — автоматическая проверка наличия на документах оттисков печатей и штампов, подписей, адресов, которые указаны в соответствии со стандартами, и т. п. При этом современные решения позволяют проверять документы не только на наличие формальных признаков, но и проводить контекстный анализ. К примеру, одна из коллекторских компаний подобным образом анализировала пакет судебных документов для того, чтобы выявить, правомерно ли закреплен долг в сложном деле с большим количеством зависимостей.

Современные российские OCR, такие как SOICA, поддерживают интеграцию со сторонними базами данных — это позволяет использовать их для анализа уставных и других юридических документов, выявляя такие незаметные ошибки, как, например, неверно внесенные номера паспортов и ИНН. Еще одна компания использовала OCR для того, чтобы автоматизировать ввод в информационную систему данных, которые изначально содержались в инфографике, поступающей из ее филиалов в формате PDF.

Каким компаниям необходимы OCR-системы

Наиболее активно используют сегодня системы оптического распознавания символов компании, которые специализируются в области ретейла, банковской деятельности, страхования, компании энергетического сектора. Но это не означает, что сфера использования OCR ограничена только ими.

Любая организация имеет в своем составе такие подразделения, как бухгалтерия, кадровая и юридическая службы. Именно они и являются основными пользователями OCR, поскольку важнейшая составляющая их повседневной работы — обработка бумажных и электронных документов.

Спрос на OCR-системы зависит от объема документов, который предприятию необходимо обработать. Если ранее для проектов по внедрению OCR порогом входа были массивы в 100 тысяч листов, то сегодня интерес к таким системам проявляют организации, которым предстоит оцифровать 20 тысяч страниц документов.

Такой интерес к OCR объясняется тем, что сегодня эти системы приобрели принципиально новую функциональность. Они больше не используются только для сканирования бумажных документов. Современные OCR стали инструментом, который позволяет автоматизировать работу и службы документооборота, и бухгалтерии, и даже инженерных подразделений.

Хотите рассказать о своем бизнесе или поделиться экспертизой?

В рубрике «Блоги компаний» вы можете бесплатно публиковать статьи о своем бизнесе. Публикации помогут укрепить ваш личный бренд или привлечь внимание партнеров, клиентов, инвесторов.

О чем можно рассказать?

  • Обо всем, с чем вы столкнулись лично, например, вышли на новый рынок, нашли неочевидный канал сбыта или придумали, как увеличить продажи в несезон.
  • О работе с инструментами, сервисами или технологиями для бизнеса.

Для помощи в подготовке статьи мы сделали телеграм-бот. В нем — рекомендации по содержанию статьи и инструкции по ее оформлению. Следуйте инструкциям, пишите статьи и отправляйте готовые тексты так же в чат-бот.

После короткой проверки ваш материал выходит на сайте Бизнес-секретов, а лучшие статьи мы отправляем на главную страницу медиа.

Ждем ваших историй!

Блоги компаний

Найдите больше ответов на вопросы о бизнесе


Больше по теме