Дорівнює 70 тисячам книг: Укрдержархів передав 10 терабайтів даних для навчання українського ШІ Сяйво

2

Державна архівна служба України передала 10 терабайтів даних для навчання ШІ Сяйво. Як повідомили у Мінцифри, такий масив інформації дорівнює 70 тисячам книжок, передає УНН.

Уявіть масив інформації, що дорівнює 70 тисячам книжок. Саме стільки — 10 терабайтів унікальних історичних матеріалів, державних документів та наукових текстів — Державна архівна служба України вперше передає для тренування національної мовної моделі Сяйво

— йдеться у повідомленні.

Як повідомили у Мінцифри, більшість глобальних АІ-помічників генерують відповіді англійською і перекладають ці тексти українською, часто втрачаючи контекст.

Щоб Сяйво стало надійним джерелом інформації для людей і бізнесу, ми тренуємо його на українських даних. Для цього модель вивчатиме історичні джерела, рукописи, закони, судові рішення, медіаматеріали та словники

— йдеться у повідомленні.

Додамо

У відомстві додали, що створення великої мовної моделі — важливий крок до побудови ШІ-суверенітету.

Зараз ми збираємо якісні дані для моделі. Свої матеріали надають вже понад 50 партнерів, серед яких медіа, університети, бібліотеки тощо. Щойно модель запрацює, ми оприлюднимо повний перелік інституцій та людей, які допомогли створити національний український ШІ

— йдеться у повідомленні.

Т. в. о. міністра цифрової трансформації України Олександр Борняков зазначив, що "для тренування національної мовної моделі ми збираємо дані, щоб мовна модель була натренована на унікальному масиві інформації".

Це державні документи, наукові статті, медіаматеріали, словники, історичні матеріали, закони, судові рішення тощо

— додав Борняков.

У Мінцифри додають, що залучення таких даних пришвидшує створення якісної української моделі, яка розумітиме нашу історію та контекст.

Це унікальний випадок, коли Укрдержархів вперше надає свої дані для розвитку цифрових сервісів в Україні. Ми маємо великий масив даних різних історичних епох, друкованих та рукописних, українською та іншими мовами. До кінця 2026 року кількість цифрових копій держархівів збільшиться із 150 млн до понад 200 млн — це один із найвищих у світі темпів оцифрування архівної спадщини

— додав голова Укрдержархіву Анатолій Хромов.

Українці обрали назву "Сяйво" для державного ШІ30.03.26, 17:08 • 3705 переглядiв

Предыдущая статьяУ Чернігові в лісовому масиві виявили тіло поліцейського з вогнепальним пораненням