Лайфхакер
Лайфхакер
Лучшее
Рубрики
Рецепты
Подкасты
Сервисы
Колонки
Пресс-релизы
7 июня 2024

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT

Большая языковая модель YandexGPT подготовила эталонные примеры текстов, на которых обучили нейросеть в Яндекс Переводчике. Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике.
Фото автора Лиля Леднёва
Лиля Леднёва

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT

Переводчик стал качественнее справляться с длинными и сложными текстами. Благодаря дообучению он лучше определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода. 

Яндекс использует технологию машинного перевода на основе нейросетей с 2018 года. Нейросеть в Переводчике обучалась только на парах текстов — оригиналах и их переводе на другой язык. Так она училась видеть взаимосвязи между ними и подражать им. Нейросеть, работающая в сервисе, легковесная: это позволяет ей справляться с большим количеством пользовательских запросов в реальном времени. 

Большая языковая модель YandexGPT способна генерировать сложные, лексически и стилистически разнообразные тексты, в том числе со специфической терминологией. Поэтому компания использовала её потенциал для создания эталонных примеров, чтобы расширить датасет и повысить его качество. Так нейросеть в Переводчике не утратила скорости своей работы, но стала умнее.

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT
1 / 0
Изображение: Яндекс
Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT
2 / 0
Изображение: Яндекс

Для генерации эталонных обучающих примеров Яндекс разработал специализированную модель семейства YandexGPT, адаптировав её под задачи перевода. Сначала модель во время этапа pretraining проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса. Следующим этапом шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим.

Работу дообученной нейросети в Переводчике оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским языком, сравнивали пары длинных и сложных текстов, переведённых с помощью двух версий технологии, и выбирали лучший вариант. В 57% случаев новая версия справлялась лучше.

Обновлённая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске, а также в переводе видео в Браузере.

Материал предоставлен пресс-службой компании Яндекс. Редакция Лайфхакера не несёт ответственности за публикацию.

Пресс-релиз
Обложка: Яндекс Браузер
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Комментарии

Станьте первым, кто оставит комментарий

Новые комментарии

Аватар автора комментария
Viktor Rinkevichs1 час назад

0 / 0

Быстрей РАЗБЕЙ....
5 причин, почему снимать на смартфон лучше, чем на обычную камеру
Аватар автора комментария
Viktor Rinkevichs1 час назад

0 / 0

Джинсами протирает ОБЪЕКТИВ ,ТОЛЬКО ДЕБИЛ..
5 причин, почему снимать на смартфон лучше, чем на обычную камеру
Аватар автора комментария
Horugvi2 часа назад

0 / 0

ты точно знаешь, что означает слово прозреть?
«Даже лучше, чем было»: 16 впечатляющих примеров реставрации старой мебели, техники и не только
Аватар автора комментария
Roman Kukhtenkov3 часа назад

0 / 0

Мозги у тебя не взрослеют
10 новых игр для Android и iOS: лучшее за октябрь
Лайфхакер
Информация
О проектеРубрикиРекламаРедакцияВакансииДля начинающих авторов
Подписка
TelegramВКонтактеTwitterViberYouTubeИнициалRSS
Правила
Пользовательское соглашениеПолитика обработки персональных данныхПравила применения рекомендательных технологийПравила сообществаСогласие на обработку персональных данныхСогласие для рекламных рассылокСогласие для информационной программы
18+Копирование материалов запрещено.
Издание может получать комиссию от покупки товаров, представленных в публикациях