Компания OpenAi накануне вечером провела презентацию генеративной модели GPT-4o. Буква «О» в названии обозначает сокращение от слова omni — «всесторонний». Нейросеть реагирует на голос в среднем за 320 миллисекунд, что сравнимо с реакцией в разговоре. Новая модель GTP работает с речью, текстом и видео. Она общается естественным голосом, даже умеет шутить и понимать эмоции, а также делает паузы в речи, если ее что-то спросить.
Автор: @OpenAI/YouTube
В ходе презентации технической директор компании Мира Мурати рассказала, что GTP-4o намного быстрее предыдущих версий — нейросеть сможет анализировать содержание документов, видео и изображений, а также переводить речь «на слух». «С помощью GPT-4o мы обучили единую новую модель сквозному обучению текста, изображения и звука, а это означает, что все входные и выходные данные обрабатываются одной и той же нейронной сетью», — говорится в описании на сайте OpenAI.
Ведущие попросили GTP-4o рассказать сказку о роботах, а потом резко уточнили, что она должна звучать драматичнее. Затем попросили генеративную модель спеть эту же сказку.
Автор: @OpenAI/YouTube
Также ведущий от руки на листе бумаги записал арифметический пример. Показал его камерой GTP-4o и голосом дал команду его решить. Нейросеть озвучила алгоритм решения.
Автор: @OpenAI/YouTube
Кроме того, в ходе презентации собеседники общались на английском и итальянском — GPT-4o помогал им понимать друг друга.
Автор: @OpenAI/YouTube
C обновленной моделью нейросети пользователи смогут взаимодействовать больше как с голосовым помощником.
GTP-4o будет доступна и для тех, кто не станет оплачивать подписку. Также OpenAI выпустит отдельное приложение для MacОS. Такой же аналог для Windows появится в течение 2024 года.