Skip to content

Super-resolution problem solving for the Digital Breakthrough hackathon

Notifications You must be signed in to change notification settings

svyatocheck/AI-Super-Resolution-Task

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Цифровой прорыв

image

Super Resolution problem Solution

В данном репозитории лежат ноутбуки для решения задачи Super Resolution, выдвинутой Rutube в рамках хакатона "Цифровой Прорыв 2023". Цель проекта - повышение привлекательности видеохостинга для пользователей.

Спойлер: получилось неплохо, вот результаты.

Примечание: ссылка на презентацию для защиты -> тык.

Contents

Проблематика

Качество видео - одна из ключевых характеристик привлекательности видеоплатформы, поэтому важно разработать инструмент повышения разрешения видео с целью дальнейшего внедрения, что безусловно приведет к росту пользовательской аудитории.

Подробнее Качество видео - одна из ключевых характеристик привлекательности видеоплатформы. На видео с низким разрешением (240p, 360p) пользователи, во-первых, могут не увидеть интересующих их деталей: текст, цифры, знаки, лица и т.д., а во-вторых, подобные видео могут содержать шумы, эффект размытости, муаровые узоры и прочие недостатки. В конечном итоге это может приводить к тому, что суть видео удовлетворяет запросу пользователя, однако низкое качество приводит к тому, что видео все равно просматривается непродолжительное время и закрывается. Вдобавок, видеохостинг RUTUBE содержит множество загружаемого на платформу видео от обычных пользователей, т.н. user generated content, качество которого может варьироваться от высококачественного до съемки, на которой сложно распознать определенные сущности. При этом пользователи могут снимать интересный контент (детали некоторых событий, локаций и т.д.), поэтому важно разработать инструмент повышения разрешения видео с целью дальнейшего внедрения на платформу, что безусловно приведет к росту уровня удовлетворенности пользователей и позволит ему больше времени проводить на платформе в соответствии со своими интересами.

Решение

Общая сетевая структура HAT соответствует классической архитектуре "остаток в остатке" RIR. Обобщая далее, можно сказать, что наша Н.С., главным образом, состоит из трех частей: поверхностное выделение признаков, глубокое выделение признаков и реконструкция изображения. image

На рисунке представлена архитектура схожая с нашей, но с незначительными отличиями.

Подробности можно узнать из первоисточника: Hybrid Attention Transformer for Image Restoration.

Примечание: итоговая модель была выбрана по результатам импровизированного соревнования внутри команды, в рамках которого, каждый участник представлял обученные на тестовых данных Open-Source решения. Так, помимо уже описанной архитектуры HAT были опробованы:

  • Real-ESRGAN - Generative Models,
  • RVRT (не получилось адаптировать под данные с задачи) - Recursive Network,
  • TecoGAN (не удалось запустить из-за устаревшей кодовой базы).

Таким образом, за несколько дней мы познакомились с моделями, основанными на разных концепциях.

Данные

Данные (тренировочные и тестовые) были предоставлены видеохостингом Rutube. Тренировочный датасет состоял из 200 беззвучных видео, где каждое было представлено в двух разрешениях: 144p и 480p.

Кадры для подачи в н.с. собирались со всего тренировочного/тестового/валидационного датасета: брался каждый 250 кадр.

Инструментарий

Для решения задачи мы использовали только свободно-распространяемые библиотеки и инструменты:

  • Python
  • Pytorch
  • Weights and Biases

Результаты

По результатам обучения моделей, имеем следующие показатели метрик:

PSNR SSIM Speed
HAT 33.629 0.9126 ~ 5 к/c
Real-ESRGAN 25.1315 0.7713 ~ 2 к/с

Обработанные видеозаписи --> тут.

Запуск

Тренировка:

python hat/train.py -opt options/train/train_HAT_SRx4.yml 

Валидация:

python hat/test.py -opt options/test/HAT_SRx4.yml

Развитие

Мы видим следующие пути развития проекта:

  • Доработка модели для ускорения обработки видеозаписей: эксперименты с архитектурой, поиск проблемных мест и д.р.
  • Создание полноценного сервиса с параллельной обработкой картинки и звуковой дорожки: image

Источники

About

Super-resolution problem solving for the Digital Breakthrough hackathon

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published