Компанія Google представила нову модель штучного інтелекту, яка робить роботів значно розумнішими у взаємодії з реальним світом. Розробка під назвою Gemini Robotics-ER 1.6 дозволяє машинам не просто виконувати команди, а розуміти середовище, планувати дії та самостійно оцінювати результат.
Крок від інструкцій до мислення
Головна ідея нової моделі — так зване «втілене мислення». Це означає, що робот отримує здатність аналізувати зображення, розпізнавати об’єкти та приймати рішення залежно від ситуації.
На відміну від попередніх систем, які діяли за чіткими інструкціями, Gemini Robotics-ER 1.6 може самостійно визначати, як виконати завдання, і навіть зрозуміти, коли воно завершене.
Краще розуміння простору
Однією з ключових переваг нової системи стало покращене просторове мислення. Роботи тепер здатні:
- точніше розпізнавати об’єкти
- визначати їхню кількість
- аналізувати взаємозв’язки між ними
Це особливо важливо в реальних умовах, де середовище часто змінюється, а інформація може бути неповною. Крім того, модель дозволяє роботам «пояснювати» свої дії — наприклад, вказувати на об’єкти, які вони враховують під час виконання завдання.
Робота з кількома камерами
Сучасні роботи часто використовують кілька камер одночасно — наприклад, верхню та камеру на маніпуляторі. Новий ШІ може об’єднувати ці різні джерела даних у єдину картину. Це допомагає краще орієнтуватися навіть у складних умовах — коли частина об’єктів перекрита або освітлення недостатнє.
Вміння «читати» навколишній світ
Однією з найпрактичніших нових функцій стала здатність розпізнавати показники приладів. Роботи можуть читати:
- аналогові манометри
- цифрові дисплеї
- індикатори рівня рідини
Цю функцію розробляли у співпраці з Boston Dynamics, де роботи вже використовуються для інспекції промислових об’єктів. Завдяки новому підходу точність зчитування даних зросла з приблизно 23% у попередніх моделях до понад 90%.
Самостійна оцінка результату
Ще одна важлива функція — здатність визначати, чи виконано завдання правильно. Робот може сам вирішити, чи потрібно повторити дію, чи переходити до наступного етапу. Це значно підвищує ефективність автоматизованих процесів, де раніше потрібен був постійний контроль з боку людини.
Безпека на новому рівні
У Google також наголошують, що нова модель стала безпечнішою. Вона краще розпізнає потенційно небезпечні ситуації та дотримується правил фізичної безпеки під час роботи.
Що це означає для майбутнього
Gemini Robotics-ER 1.6 вже доступна розробникам через спеціальні платформи Google AI Studio та API Gemini. Це означає, що нові можливості можуть швидко з’явитися у реальних продуктах — від промислових роботів до побутових помічників.
Нова розробка Google демонструє важливий зсув у робототехніці: машини поступово переходять від виконання команд до справжнього розуміння світу навколо себе.