Мы ищем Document AI / OCR Engineer, который будет разрабатывать, адаптировать и внедрять модели для анализа документов и распознавания текста.
Основная задача — построение и развитие end-to-end Document AI pipeline: от загрузки и предобработки изображений, детекции и анализа структуры документа до OCR, постобработки и повышения точности моделей на реальных данных.
Обязанности:
- Разработка и поддержка OCR / Document AI pipeline для анализа документов
- Адаптация и fine-tuning предобученных OCR-моделей под доменные данные (шрифты, языки, качество сканов)
- Дообучение моделей детекции и анализа структуры документов (YOLO / Detectron2) под кастомные классы (layout, таблицы, ключевые зоны)
- Работа с собственными датасетами: разметка документов, аугментации, синтетическая генерация данных, подготовка train/val/test выборок
- Улучшение качества распознавания за счет предобработки, постобработки, словарей и правил валидации
- Оценка качества моделей и пайплайна в целом: precision / recall для детекции и layout, CER / WER и field-level accuracy для OCR
- Участие во внедрении моделей в продукт
Требования:
- Уверенные знания Python
- Опыт работы с PyTorch / TensorFlow
- Знание Computer Vision, CNN, Transformers, Attention
- Опыт работы с OCR-движками (PaddleOCR, Tesseract, EasyOCR)
- Знание методов детекции и сегментации объектов (например, YOLO, Detectron2)
- Навыки пост - и предобработки изображений (OpenCV)
- Понимание принципов оптимизации
Рассматриваем график: гибрид, офис Резюме просьба отправлять в pdf формате.