Відновлюємо детальну геометрію об’єктів для більш точної валідації асортименту

Займаючись питаннями якості пошуку, рано або пізно доводиться зіткнутися із завданням візуальної валідації продуктів. Опустимо прості завдання, з якими впорається звичайний класифікатор, зосередившись на випадках, які вимагають більш або менш точної геометрії об’єкта:

Припустимо, необхідно відібрати лише хороші фотографії тих чи інших об’єктів, для подальшого використання в e-commerce. Під гарними будемо розуміти фотографії без зайвих деталей з домінуючим основним об’єктом.

Навіщо це потрібно?

Будь-яке нестандартне зображення продукту однозначно приверне увагу. Але реакція потенційного покупця може бути як позитивною, так і негативною. Завдання попередньої валідації — зменшити (бажано суттєво) ймовірність негативного сценарію.

Нижче «різнобій» стилів для однієї з категорій тестового магазину

Не ускладнюючи далі, якщо футболка трохи губиться на фотографії, або ви розглядаєте не зовсім потрібні вам деталі — що-то з великою ймовірністю піде (або вже пішло) не так.

Таким чином, одна з стратегій попередньої валідації може бути сформульована дуже просто: фотографії з домінуючими продуктами перемагають. Справа за малим, необхідно дати їм перемогти.

Що не так bounding box підходом?

Основна проблема — точність результатів. Складні об’єкти, нестандартні фотографії, реальне життя, ну ви знаєте. Таким чином, якщо у вас є bounding box — у вас все ще недостатньо інформації.

Висновок кілька засмучує, оскільки відразу відкидає перевірені і добре працюючі рішення (або робить їх значно складніше). Наприклад, використання нейромереж для отримання скільки-небудь точної геометрії вимагає досить багато ресурсів на підготовку тренувального набору, не гарантуючи необхідну точність.

А адже маючи більш або менш точну геометрію, можна було б використовувати більш складну логіку аналізу та валідації. Та чого вже там, можна і на відео замахнутися (вибір необхідного відрізка, автоматичний кроп і т. д.)

Складні випадки

Займаючись дане темою деякий час, можу впевнено сказати — всі випадки по-своєму складні. Тим не менш, динамічні сцени або сцени з мінливих дистанцією створюють найбільші труднощі.

Танці

Лижник

Додатково:
Дивацтва 4K Mask RCNN COCO
YOLOv2 vs YOLOv3 vs Mask RCNN vs Deeplab Xception
Телеграм: RobotsCanSee
Instagram: RobotsCanSee

You may also like...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *