OpenAI показала новую обновленную нейросеть GTP-4o. Теперь она шутит и понимает ваши эмоции

Компания OpenAi накануне вечером провела презентацию генеративной модели GPT-4o. Буква «О» в названии обозначает сокращение от слова omni — «всесторонний». Нейросеть реагирует на голос в среднем за 320 миллисекунд, что сравнимо с реакцией в разговоре. Новая модель GTP работает с речью, текстом и видео. Она общается естественным голосом, даже умеет шутить и понимать эмоции, а также делает паузы в речи, если ее что-то спросить.

Автор: @OpenAI/YouTube

В ходе презентации технической директор компании Мира Мурати рассказала, что GTP-4o намного быстрее предыдущих версий — нейросеть сможет анализировать содержание документов, видео и изображений, а также переводить речь «на слух». «С помощью GPT-4o мы обучили единую новую модель сквозному обучению текста, изображения и звука, а это означает, что все входные и выходные данные обрабатываются одной и той же нейронной сетью», — говорится в описании на сайте OpenAI.

Ведущие попросили GTP-4o рассказать сказку о роботах, а потом резко уточнили, что она должна звучать драматичнее. Затем попросили генеративную модель спеть эту же сказку.

Автор: @OpenAI/YouTube

Также ведущий от руки на листе бумаги записал арифметический пример. Показал его камерой GTP-4o и голосом дал команду его решить. Нейросеть озвучила алгоритм решения.

Автор: @OpenAI/YouTube

Кроме того, в ходе презентации собеседники общались на английском и итальянском — GPT-4o помогал им понимать друг друга.

Автор: @OpenAI/YouTube

C обновленной моделью нейросети пользователи смогут взаимодействовать больше как с голосовым помощником.

GTP-4o будет доступна и для тех, кто не станет оплачивать подписку. Также OpenAI выпустит отдельное приложение для MacОS. Такой же аналог для Windows появится в течение 2024 года.

Календарь

OpenAI показала новую обновленную нейросеть GTP-4o. Теперь она шутит и понимает ваши эмоции

Аккредитация