Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Пресс-релизы
7 июня 2024

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT

Большая языковая модель YandexGPT подготовила эталонные примеры текстов, на которых обучили нейросеть в Яндекс Переводчике. Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике.
Фото автора Лиля Леднёва
Лиля Леднёва

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT

Переводчик стал качественнее справляться с длинными и сложными текстами. Благодаря дообучению он лучше определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода. 

Яндекс использует технологию машинного перевода на основе нейросетей с 2018 года. Нейросеть в Переводчике обучалась только на парах текстов — оригиналах и их переводе на другой язык. Так она училась видеть взаимосвязи между ними и подражать им. Нейросеть, работающая в сервисе, легковесная: это позволяет ей справляться с большим количеством пользовательских запросов в реальном времени. 

Большая языковая модель YandexGPT способна генерировать сложные, лексически и стилистически разнообразные тексты, в том числе со специфической терминологией. Поэтому компания использовала её потенциал для создания эталонных примеров, чтобы расширить датасет и повысить его качество. Так нейросеть в Переводчике не утратила скорости своей работы, но стала умнее.

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT
1 / 0
Изображение: Яндекс
Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT
2 / 0
Изображение: Яндекс

Для генерации эталонных обучающих примеров Яндекс разработал специализированную модель семейства YandexGPT, адаптировав её под задачи перевода. Сначала модель во время этапа pretraining проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса. Следующим этапом шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим.

Работу дообученной нейросети в Переводчике оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским языком, сравнивали пары длинных и сложных текстов, переведённых с помощью двух версий технологии, и выбирали лучший вариант. В 57% случаев новая версия справлялась лучше.

Обновлённая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске, а также в переводе видео в Браузере.

Материал предоставлен пресс-службой компании Яндекс. Редакция Лайфхакера не несёт ответственности за публикацию.

Пресс-релиз
Обложка: Яндекс Браузер
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Комментарии

Станьте первым, кто оставит комментарий

Новые комментарии

Аватар автора комментария
Индира12 минут назад

0 / 0

Возможно, просто многие через наушники слушают музыку.
Обзор игрового смартфона iQOO 15R: мощный, удобный и очень автономный
Аватар автора комментария
Индира13 минут назад

0 / 0

А было бы прикольно.
Забираем умные часы Amazfit Balance 2 со скидкой 36%
Аватар автора комментария
Индира13 минут назад

0 / 0

Такой большой ассортимент. Спасибо.
11 новых приложений для iOS: лучшее за апрель
Аватар автора комментария
Индира14 минут назад

0 / 0

Ну возможно для тех, кто хочет завести питомца, но не может (не позволяет жилье, финансы, здоровье (аллергия на шерсть) и т.п.)
Оно живое: экс-глава iRobot представил умного домашнего робота в виде плюшевой игрушки
Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииО компании
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях