Создание языковой модели состоит из нескольких этапов


ortcom.kz

Генеральный директор Центра поддержки цифрового правительства Рустем Бигари рассказал, что к концу 2024 года в Казахстане планируют представить свою языковую модель на базе искусственного интеллекта по аналогии с ChatGPT, передает корреспондент центра деловой информации Kapital.kz.

«Чтобы сейчас ChatGPT полноценно говорил и правильно отвечал (на казахском языке — Ред.), нам нужно порядка 13 млрд токенов. На сегодня сам ChatGPT, который относится к OpenAI, где-то порядка всего 1,5 млрд токенов. Примерно в 10 раз меньше. Почему? Потому что корпус открытой информации, которая есть в мире, всего насчитывает столько данных. Поэтому большая задача сегодня стоит перед нами - разработать отечественную версию с нашими библиотеками, произведениями, с учетом нашего менталитета и так далее», — сказал Рустем Бигари на брифинге в Службе центральных коммуникаций (СЦК).

По его словам, министерство цифрового развития, инноваций и аэрокосмической промышленности готово оказать поддержку разработчикам и бизнесменам казахстанской версии ChatGPT.

«Министерством создано два консорциума, плюс стартапы и проекты, которые сегодня формируются. Я думаю, будет возможность поддерживать бизнес. По нашим расчетам, к концу этого года казахстанцам представят нашу модель ChatGPT. В дальнейшем мы с вами уже дальше можем её развивать. Но для запуска нам нужны вычислительные мощности», — отметил Рустем Бигари.

Гендиректор Центра поддержки цифрового правительства не знает сколько будет стоить разработка аналога.

«Бюджет только формируется. Цифру мы не можем сейчас сказать. Потому что создание языковой модели состоит из нескольких этапов. Наша задача не только данные собрать, потом предстоит большая работа лингвистов, которые правильно должны разметить. Ну и большое участие граждан планируется, чтобы они участвовали в развитии разметки языка. Например, Корея тратит миллиарды для того, чтобы граждане помогали развивать собственную языковую модель. Такой же подход будет в Казахстане», — заверил он.

Напомним, министр цифрового развития, инноваций и аэрокосмической промышленности Багдат Мусин во время церемонии открытия Digital Almaty в начале февраля 2024 года рассказал о планах своего ведомства по внедрению искусственного интеллекта. Министерство, по его словам, работает над созданием LLM (large language model – большая языковая модель) казахского языка. «С Назарбаев Университетом уже начата работа для того, чтобы создать аналог чата GPT именно на базе казахстанской разработки», – пояснял он.

В конце февраля MOST Holding заявил о том, что запускает Irbis GPT – пионерский проект в области развития казахского языка через применение искусственного интеллекта. Цель инициативы — сохранение и распространение казахского языка и его интеграция в современные цифровые технологии для развития общества, экономики и науки в Казахстане.