Мы ищем Document AI / OCR Engineer, который будет разрабатывать, адаптировать и внедрять модели для анализа документов и распознавания текста.

Основная задача — построение и развитие end-to-end Document AI pipeline: от загрузки и предобработки изображений, детекции и анализа структуры документа до OCR, постобработки и повышения точности моделей на реальных данных.

Обязанности:

Разработка и поддержка OCR / Document AI pipeline для анализа документов
Адаптация и fine-tuning предобученных OCR-моделей под доменные данные (шрифты, языки, качество сканов)
Дообучение моделей детекции и анализа структуры документов (YOLO / Detectron2) под кастомные классы (layout, таблицы, ключевые зоны)
Работа с собственными датасетами: разметка документов, аугментации, синтетическая генерация данных, подготовка train/val/test выборок
Улучшение качества распознавания за счет предобработки, постобработки, словарей и правил валидации
Оценка качества моделей и пайплайна в целом: precision / recall для детекции и layout, CER / WER и field-level accuracy для OCR
Участие во внедрении моделей в продукт

Требования:

Уверенные знания Python
Опыт работы с PyTorch / TensorFlow
Знание Computer Vision, CNN, Transformers, Attention
Опыт работы с OCR-движками (PaddleOCR, Tesseract, EasyOCR)
Знание методов детекции и сегментации объектов (например, YOLO, Detectron2)
Навыки пост - и предобработки изображений (OpenCV)
Понимание принципов оптимизации

Рассматриваем график: гибрид, офис Резюме просьба отправлять в pdf формате.

Document AI/OCR Engineer