Украина создает собственный ChatGPT

Украина официально начинает разработку собственной большой языковой модели (LLM), которая станет фундаментом для национальных ИИ-сервисов в государственном и частном секторах.

Этот проект является первым шагом к построению суверенной цифровой инфраструктуры Украины в эпоху искусственного интеллекта (далее — ИИ). Его цель — обеспечить государство, бизнес и граждан эффективными, безопасными и украинскими по происхождению ИИ-решениями.

Проект предусматривает глубокую координацию между государством, бизнесом и научным сообществом. Его реализацией будут руководить технический, координационный и этический комитеты. Кроме разработки LLM, в планах – запуск более десяти ИИ-продуктов, в частности ИИ-ассистента в Дии и инструментов анализа нормативно-правовых актов. Подробнее об украинском искусственном интеллекте.

Зачем Украине собственный ИИ

18 июня 2025 года в Украине произошло событие, которое может стать определяющим в формировании цифровой независимости государства: объявлено о запуске проекта создания большой языковой модели (LLM), которая будет иметь суверенный статус. Проект будет реализовываться совместно Минцифрой и компанией Киевстар.

«Этот день будет важен для нашей страны в целом. Вы знаете, что где-то полгода назад мы приняли стратегию инноваций в нашей стране. Это такой первый групповой документ, который мы разрабатывали не один месяц», – подчеркнул министр цифровой трансформации Михаил Федоров.

По его словам, несмотря на полномасштабную войну, Украина не имеет права остаться в стороне от глобальной технологической гонки. Мир не останавливается: инвестирует в человеческий капитал, развивает компании, создает добавленную стоимость: «Мы в этой гонке остаемся, и нам нужно бороться с агрессором, при этом развивать экономику, собственное оружие, образование, человеческий капитал».

Федоров отметил успехи в сферах GovTech и DefenseTech. Украина поднялась со 102-го на 5-е место в мировом рейтинге цифровых государственных услуг, а количество компаний в секторе оборонных технологий выросло:

«Мы сделали определенный прорыв в сфере DefenseTech. Мы с 0 компаний дошли до 500, из которых не менее 10 – это инновационные игроки».

Министр подчеркнул, что ни одна инновационная стратегия не может существовать без ИИ, ведь ИИ изменит наш мир так, как в свое время его изменил интернет. Каждая компания будет использовать ИИ. Исчезнут некоторые бизнес-процессы, целые отрасли трансформируются.

Украина намерена попасть в тройку лидеров мира по уровню практического внедрения ИИ. Для этого уже создан центр компетенций WINWIN, формируется ИИ-видение и инвестиции в инфраструктуру. Отдельно Федоров рассказал о создании суверенной LLM-модели в сотрудничестве с Киевстаром: «Она позволит нам хранить данные в стране, запускать сервисы без риска утечки, работать с уникальными украинскими дата-сетами, такими как Delta».

Модель будет обучаться исключительно на украинских источниках, без искажений и враждебных ИПСО. Применение – от государственных сервисов до бизнеса, от справок в Дии до аналитики оборонного сектора. Это наши библиотеки, наши ученые, наша история. «Вся информация будет оцифрована и использована для обучения модели», – добавил глава Минцифры.

Проект предусматривает создание стратегического, технического и этического комитетов. Продолжительность – около 9 месяцев. После завершения модель станет open-source для государственных и образовательных учреждений.

Киевстар: какое участие оператора

Генеральный директор Киевстара Александр Комаров рассказал во время презентации об участии компании:

«Мы проходим самую большую трансформацию в истории компании: от оператора связи к поставщику цифровых сервисов. Киевстар уже имеет успешные проекты в телевидении, здравоохранении, мобильности. Участие в создании LLM – это логичный шаг в развитии компетенций».

Комаров напомнил, что международная группа VEON, в которую входит Киевстар, уже имеет опыт создания LLM-модели на казахском языке совместно с Barcelona Computing Center:

«Это была модель на 80 миллиардов токенов. Сейчас она работает на казахском, английском и турецком языках. Мы хотим реализовать аналогичный подход в Украине».

Проект в Украине также станет вкладом в национальную безопасность и суверенитет: «Я считаю, что любая страна с точки зрения нацбезопасности должна иметь собственную LLM-модель. Это независимость, это снижение затрат, это новые возможности».

На момент анонса уже идет бета-тест первого ИИ-продукта в Дии – чат-бота, который консультирует по услугам. В будущем к нему присоединятся другие сервисы. Центр компетенций Минцифры уже анализирует нормативно-правовые акты с помощью AI, освобождая тысячи часов труда юристов.

Финансирование, безопасность и коммерческое участие: что известно о создании суверенной LLM-модели в Украине

После громкого анонса о создании большой языковой модели (LLM) в Украине в рамках партнерства Минцифры и Киевстара, спикеры ответили на ключевые вопросы журналистов — о расходах, безопасности, коммерческих перспективах и открытости проекта для других игроков.

Как рассказал Михаил Нестор, директор по разработке диджитал-продуктов Киевстар, бюджет проекта еще окончательно не определен из-за научно-исследовательского характера инициативы:

«Это действительно никто никогда не делал – LLM на украинском языке. Мы ведем переговоры с клауд-партнерами, у нас есть собственный клауд-бизнес, и это будет еще одна его ветвь».

Он уточнил, что речь идет не о большой команде, а о «10 – 15 очень качественных специалистах», а также дополнительных командах для обработки данных, этики, тестирования: «Сколько нужно, чтобы мы сделали классный проект. Мы не остановимся на полпути».

По его словам, экономить ради посредственного продукта нет смысла – как и делать продукт, хуже Open Source или платных аналогов.

На вопрос о коммерческом интересе Киевстара, Нестор ответил, что компания заинтересована в формировании собственной экспертизы в ИИ:

«Мы хотим быть такими же лидерами в AI, как и в Data Science. Это стоит больше, чем продажа модели. Модель будет иметь национальный статус и будет обучена на украинских корпусах данных. Для государства, обороны или финансов – это будут отдельные треки использования».

Александр Борняков, заместитель министра цифровой трансформации, сообщил, что на время тестирования модель будет бесплатной для государственных и образовательных учреждений.

Во время обсуждения будущих сценариев использования модели представители Минцифры подтвердили, что одним из вариантов применения станет чат-бот в приложении Дия. По словам заместителя министра цифровой трансформации Александра Борнякова, к тому времени будет ИИ-система, которая будет в Дии. «Потому что сейчас команда работает над ним. И мы его просто могли бы включить в эту модель, чтобы посмотреть, как она работает», — пояснил Борняков.

Речь идет о включении будущей LLM-модели в уже имеющийся функционал, в частности в рамках джема (пробного запуска). Основная цель – собрать обратную связь о качестве работы системы:

«Когда будет первая версия модели, нам важно будет получить фидбек по качеству. Не исключено, что тестирование на государственном продукте станет одним из способов выявить, что нужно усовершенствовать, прежде чем модель станет полноценным open-source-решением».

Таким образом, публичный чат-бот, доступный гражданам, является частью стратегического плана тестирования и совершенствования LLM-модели до ее полноценного релиза.

Михаил Нестор подтвердил, что к проекту могут присоединяться и другие компании: «Мы открыты. Можем инвестировать вместе».

Даниил Цьвок, Chief AI Officer Минцифры, добавил, что процесс создания модели не ограничится 9 месяцами: «Это длительный процесс, который предусматривает совершенствование данных, оцифровку, привлечение новых партнеров».

На вопрос о безопасности и борьбе с «галлюцинациями» LLM-моделей, Даниил Цьвок пояснил:

— инфраструктура будет сертифицированной;

— персональные данные не будут попадать в тренировочную выборку;

— будут применяться гардрейлы – фильтры для входящих и исходящих запросов;

— будет работать этический комитет для контроля предубеждений;

— будет проводиться Human Evaluation – человеческая оценка качества результатов.

«Это вопрос суперприоритетный. Безопасность – и в процессе разработки, и в использовании», – добавил Цьвок. Что касается объема корпуса на украинском языке, Цьвок признал, что этого недостаточно даже для модели среднего размера: «Нужно будет сделать open call, инициативу для сбора дополнительных данных. Частные организации также могут присоединиться». При этом все данные должны собираться с соблюдением авторского права и законодательства.

Нестор и Борняков также подтвердили, что модель будет интегрирована в сервисы государства и бизнеса: «Это будет как интернет. Это не выбор – это волна. Она будет во всех продуктах, компаниях, госучреждениях». Цьвок привел такой прогноз: «Если 22 миллиона пользователей ежегодно будут делать более 100 миллионов запросов – экономический эффект будет колоссальным».

/ / /

X