В Таджикистане создан первый искусственный интеллект, способный распознавать таджикский язык и его разнообразные диалекты.
Модель под названием SoroLLM разработана командой исследователей из компании zehnlab.ai — это первая нейросеть, ориентированная исключительно на таджикскую речь.
Проект был представлен президенту Эмомали Рахмону 25 июня в рамках открытия первого в стране Центра вычислительных ресурсов для ИИ. Событие стало важным этапом в цифровом развитии республики, подчеркнув значимость национальных технологий.
В отличие от глобальных моделей вроде GPT или LLaMA, SoroLLM учитывает особенности таджикского языка: от нестандартного синтаксиса до редких слов и вариативности произношения.
«Нам важно, чтобы модель не просто распознавала таджикский, а улавливала всё его разнообразие – от северных говоров до памирских», – говорят разработчики.
Проект продолжает развиваться. В ближайших планах – внедрение мультимодальных функций, которые позволят работать не только с текстом, но и с аудио- и видеоданными.
Команда также приглашает жителей страны принять участие в улучшении нейросети – для этого достаточно перейти по ссылке и заполнить короткую Google-форму, рассказав о своем диалекте.