ГигаЧат улучшил качество понимания татарского языка 2026-04-10 09:36:46
В Татарстане проект реализован совместно с Академией наук республики. В результате проделанной работы сформирован масштабный корпус данных, включающий произведения литературы, публикации прессы, учебные пособия.
Обновлённый ИИ-помощник ГигаЧат улучшил качество понимания и создания текста более чем на 30 языках народов России и стран СНГ. В их числе татарский, башкирский, чувашский, удмуртский, якутский, бурятский, осетинский, чеченский, карачаево-балкарский и другие. Поддержка каждого языка потребовала отдельной точечной доработки модели – качество ответов обеспечивалось за счёт тщательно отобранных обучающих данных. Всего с учётом других международных языков ГигаЧат может выполнять задачи более чем на 40 языках.
Партнёрами по сбору данных для обучения ИИ-помощника выступила ФГБУ «Дом народов России» и интернет-энциклопедия «Рувики», а также региональные академии наук, научные и образовательные организации и некоммерческие фонды, работающие в сфере сохранения локальных языков и культурного наследия народов России.
Поддержка национальных языков реализована в текстовом формате. Достаточно попросить ГигаЧат отвечать на нужном языке – и он будет его использовать, когда пользователь обращается на нём к ИИ-помощнику. Пользователи ИИ-помощника могут получать ответы, консультации и помощь в цифровых сервисах на родном языке: от поиска информации и помощи в учёбе до подготовки текстов, обращений и взаимодействия с государственными органами. Возможность общаться с ИИ на родном языке важна как для старшего поколения, получающего доступ к сервисам на родном языке, так и для подрастающего, осваивающего цифровую среду через ИИ-помощников. Такой подход помогает укреплять связь между поколениями, сохранять культурную и историческую память и создает основу для будущего развития сервисов и продуктов на национальных языках в образовании, культуре, туризме, медиа и других секторах экономики.
Как обучали языковую модель
Многие национальные языки исторически мало представлены в цифровой среде, поэтому Сбер выстраивает работу с широким кругом федеральных и региональных партнёров — университетами, библиотеками, медиа и культурными институтами, региональными ассоциациями, фондами и академиями наук, заинтересованными в оцифровке языкового наследия и развитии ИИ-сервисов на родных языках. Именно они помогают собирать и верифицировать языковые данные, необходимые для обучения модели. Носители языка также участвуют в разметке и оценке качества: контролируют корректность ответов модели, проверяют грамматику, стилистику и соответствие живой речи.
Обучающий набор по каждому языку включал от нескольких сотен тысяч до нескольких миллионов документов. Это архивные и современные тексты из фондов образовательных учреждений и библиотек, новостные и публицистические материалы медиапартнёров, а также учебные и научные тексты. Разнообразие источников обеспечивает высокое качество ответов и охват как литературного, так и разговорного языка. Команда также оптимизировала алгоритмы обработки национальных языков, что заметно повысило эффективность обучения. Такой подход позволил добиться значимого улучшения качества ответов при относительно компактных датасетах.
Антон Фролов, старший вице-президент, руководитель блока «Развитие генеративного ИИ» Сбера:
«Мы хотим сделать ГигаЧат по-настоящему массовым продуктом – таким, которым сможет воспользоваться каждый житель страны. В России используют более 270 языков и диалектов, и мы ставим перед собой задачу, чтобы как можно больше жителей могли общаться с нашим ИИ-помощником на родном языке. Когда человек может объяснить задачу своими словами, на языке, на котором он думает и чувствует, ИИ-помощник становится по-настоящему полезным инструментом в обычной жизни – будь то помощь ребёнку с учёбой, разбор юридического договора или инструкция по настройке новой техники».
Генеративная модель ГигаЧат создана с нуля российскими специалистами – от сбора и разметки данных до базового обучения, дообучения под конкретные задачи и финальной оценки качества. Все этапы разработки выполнены на собственной инфраструктуре Сбера.
Ранее Сбер представил новую версию ИИ-помощника на базе флагманской модели ГигаЧат Ультра (GigaChat Ultra). Ключевое нововведение — долгосрочная память: в отличие от контекстной памяти, которая сбрасывается в конце каждого диалога, ГигаЧат теперь сохраняет факты для пользователя между сессиями и учитывает их в каждом последующем разговоре. Модель запоминает увлечения, профессию, предпочтения и информацию о близких — и самостоятельно отбирает только значимые факты, не перегружая память мелочами. Это делает ответы более персонализированными и точными. ИИ-помощник теперь сам понимает, когда нужно найти информацию в интернете, а скорость генерации ответов увеличена в два раза.
Попробовать обновлённую модель можно бесплатно в веб-версии, приложениях для Android в RuStore и AppGallery, а также в мессенджерах. Для активации голосового режима и памяти достаточно авторизоваться по Сбер ID и включить нужные опции в настройках профиля.
