Все самое важное с презентации Google I/O — ИИ, ИИ и еще раз ИИ

Вчера, на ежегодной конференции разработчиков Google I/O компания представила последние наработки в области ИИ — теперь эта технология будет практически везде в экосистеме Google.

Вот основные моменты с презентации

Gemini 1.5 Flash и обновления для Gemini 1.5 Pro

Google представила новую ИИ-модель под названием Gemini 1.5 Flash, которая оптимизирована для скорости и эффективности. Flash занимает промежуточное положение между Gemini 1.5 Pro и Gemini 1.5 Nano, самой компактной моделью, работающей локально на девайсе.

Google объяснила, что создала Flash по запросам разработчиков, которые хотели более лёгкую и доступную модель, сохраняя при этом длинное контекстное окно в один миллион токенов, отличающее Gemini Pro от конкурентов. В конце года контекстное окно Gemini удвоится до двух миллионов токенов, что позволит обрабатывать два часа видео, 22 часа аудио, более 60 тысяч строк кода или более 1.4 миллиона слов одновременно.

Project Astra

Google представила Project Astra, раннюю версию универсального ассистента на базе ИИ. Генеральный директор DeepMind Демис Хассабис назвал его "помощником в повседневной жизни".

В демонстрационном видео пользователь Astra перемещается по офису Google в Лондоне, используя камеру телефона для распознавания объектов — колонок, кода на доске и вида из окна, общаясь с приложением о том, что оно видит.

Впечатляющий момент видео показал, как Astra находит очки пользователя без явного запроса. В конце видео оказывается, что очки оснащены встроенной камерой и могут использовать Astra для непрерывного общения с пользователем.

Ask Google Photos

Google Photos уже умел находить конкретные изображения и видео, но с ИИ его возможности станут ещё шире. Пользователи Google One в США смогут задавать сложные вопросы, например, "покажи лучшие фото из каждого национального парка, который я посетил".

Google Photos будет использовать GPS-информацию и собственное определение "лучших" снимков. Также можно будет генерировать подписи к фото для публикации в соцсетях.

Veo и Imagen 3

Новые медиа-движки на базе ИИ от Google называются Veo и Imagen 3. Veo, аналог OpenAI’s Sora, способен создавать 1080p видео, продолжительностью более минуты и понимать кинематографические концепции, такие как таймлапс.

Imagen 3 — это генератор изображений по тексту, создающий фотореалистичные изображения с высокой детализацией и минимальным количеством артефактов, конкурируя с DALLE-3 от OpenAI.

ИИ-обновления для Google Search

Google значительно изменила работу поиска. Большинство нововведений, таких как возможность задавать сложные вопросы и планировать поездки, пока доступны только для участников Search Labs. Но функция AI Overviews, тестировавшаяся год, теперь доступна миллионам пользователей в США и скоро охватит более миллиарда пользователей по всему миру. Поиск Google теперь будет предоставлять ИИ-ответы поверх результатов по умолчанию.

Вряд ли владельцы сайтов будут в восторге от интеграции ИИ еще глубже, что приведет к еще большей потере трафика различными блогами и специализированными порталами.

Gemini на Android

Google интегрирует Gemini прямо в Android. В Android 15, который выйдет позже в этом году, Gemini будет осведомлён о приложении, изображении или видео, которые вы используете, и позволит задавать контекстные вопросы. Google не упомянула Google Assistant в сегодняшней презентации.

Также были анонсированы другие обновления: добавление цифровых водяных знаков к видео и тексту, сгенерированным ИИ, доступность Gemini в боковой панели Gmail и Docs, виртуальный ИИ-партнёр в Workspace, прослушивание звонков и обнаружение мошенничества в реальном времени и многое другое.