Штучний інтелект навчився розпізнавати об’єкти на картинках по голосовому опису
Вже досить давно існує технологія розпізнавання мови. Як і функція розпізнавання зображення. Так чому б їх не поєднати, поліпшивши відразу обидві? Мабуть, саме так і подумали експерти з Массачусетського технологічного університету (MIT), розробивши алгоритм, здатний визначити окремі об’єкти на зображенні, ґрунтуючись лише на мовному описі.
Про досить цікавою технологією пише видання Engadget. Устрій нейромережі досить простий: вона складається з двох взаємодіючих між собою частин. Перша працює безпосередньо з зображенням – вона розділяє його на сітку з комірок, в той час як друга відповідає за обробку аудіо сигналу. Вхідне повідомлення поділяється на короткі 1-2 секундні відрізки. Після цього програма перевіряє, наскільки кожна клітинка розділеного зображення відповідає кожному 1-2 секундному аудіофайлу. Самі розробники порівнюють такий метод із спілкуванням з дитиною, коли ви вказуєте йому на об’єкти і квимовляєте їй їх назви.
Для нової технології є досить великий спектр застосувань, найочевидніший з яких – інтеграція в пошукові системи, однак розробникам більше до душі використання системи в якості інструменту для перекладів, здатних розпізнати мову і підібрати відповідні слова з точністю до 100%.
«Замість того, щоб давати програмі завдання використовувати «прямий» переклад, можна зробити його контекстно-залежним і навчити систему переводити на різні мови описи та призначення об’єктів в залежності від ситуації.»
Цю та інші новини ви завжди можете обговорити в коментарях.