Обзор Google Gemini

Предстоящая инновация Google, Gemini AI , представляет собой набор продвинутых больших языковых моделей, которые в настоящее время разрабатываются в Google AI . По словам Сундара Пичаи , генерального директора Google, Gemini с самого начала задумывалась как мультимодальная.

Уникальный аспект Gemini AI позволяет пользователям обрабатывать и создавать контент, начиная от текста, изображений и аудио до кода, с помощью единого пользовательского интерфейса (UI).

В настоящее время Gemini находится на стадии бета-тестирования, доступной лишь небольшому числу разработчиков из избранных компаний. Ожидается, что к концу 2023 года Gemini заменит PaLM 2 , движок Google Bard .

Ключевые особенности Google Gemini AI

Вице-президент Google DeepMind Зубин Гахрамани сообщил, что Gemini AI будет доступен в четырех размерах, аналогичных PaLM 2: Gecko, Otter, Bison и Unicorn.

Gecko: эта легкая версия, предназначенная для мобильных устройств, идеально подходит для использования в дороге.
Otter: Являясь шагом вперед по сравнению с Gecko, Otter создан для широкого спектра унимодальных задач.
Bison: размер больше, чем у Otter, Bison подходит для определенных мультимодальных задач и может конкурировать с ChatGPT-4 на рынке.
Unicorn: Будучи высшей версией, Unicorn предназначен для решения множества мультимодальных задач, превосходя ChatGPT и аналогичных конкурентов.

Как функционируют Близнецы?

Скорее всего, Gemini будет использовать архитектуру Google Pathways . Здесь отдельные модульные модели машинного обучения сначала обучаются решению конкретных задач. После освоения эти модули объединяются, образуя взаимосвязанную сеть.

Независимо от того, работают ли эти модули по отдельности или в тандеме, они производят различные выходные данные. Бэкэнд-кодировщики преобразуют разнообразные формы данных в универсальный язык. Затем декодеры создают выходные данные в различных модальностях, в зависимости от полученных закодированных входных данных и поставленной задачи.

Ожидается, что в пользовательском интерфейсе Google развернет Duet AI с Gemini AI, что замаскирует его сложную архитектуру и облегчит его использование на разных уровнях знаний.

Процесс обучения для Gemini AI

Сообщается, что при обучении моделей Gemini использовалось сочетание:

Обучение под наблюдением: использование известных закономерностей из размеченных данных для прогнозирования результатов.
Обучение без учителя: выявление закономерностей и взаимосвязей в данных без маркированных образцов.
Обучение с подкреплением: уточнение решений с помощью механизма обучения, основанного на вознаграждении.

Инсайдеры отрасли предположили, что Google, возможно, активно использовал RLHF на чипах Cloud TPU v5e для обучения модулей Gemini. Известно, что эти TPU обладают вычислительной мощностью в пять раз большей, чем обучающие чипы ChatGPT.

Хотя точные наборы данных, использованные для обучения Gemini, остаются нераскрытыми, предполагается, что Google могла перепрофилировать данные своего обучения PaLM 2, которые были получены из разных источников.

Дата запуска Google Gemini

Точная дата запуска Gemini AI остается спекулятивной. Однако ранний доступ к избранным разработчикам намекает на потенциальный выпуск сервисов Google Cloud Vertex AI к концу 2023 года. Кроме того, успешный запуск может привести к интеграции с различными сервисами Google на базе искусственного интеллекта.

Благодаря своей масштабируемости и универсальной интеграции API, Gemini AI с момента своего запуска изменит определение как настольных, так и мобильных приложений.

Происхождение имени: Гугл Близнецы.

Хотя некоторые предполагают, что « GeMINI » означает « Общий мультимодальный сетевой интерфейс интеллекта », официально это не подтверждено. Более распространенное убеждение, любезно предоставленное Google Bard, основано на созвездии Близнецов и связанном с ним греческом мифе о Касторе и Поллуксе .