Tým vědců ze sdružení CESNET a FIT ČVUT v Praze vytvořil průlomovou datovou sadu, která promění oblast detekce hrozeb v počítačových sítích
Vědecký tým ze sdružení CESNET a Fakulty informačních technologií ČVUT v Praze (FIT ČVUT), vytvořil unikátní datovou sadu zachycující roční síťový provoz v národní akademické síti. Tato datová sada, využitelná pro pokročilé metody strojového učení a detekci kybernetických hrozeb, získala prestižní publikační prostor v časopise Nature Scientific Data.
Dlouhodobá anonymizovaná datová sada, která věrohodně odráží celoroční síťový provoz, představuje významný posun ve výzkumu bezpečnosti sítí a detekci kybernetických hrozeb. Dosavadní datové sady obvykle obsahovaly pouze několik dnů síťového provozu, kvůli náročnosti dlouhodobého sběru a objemu celkových dat, což omezovalo možnost zkoumat časově proměnné fenomény. Algoritmy strojového učení proto často dosahují výborných přesností pouze během návrhu (v laboratorním prostředí), ale v reálném nasazení selhávají a jejich detekční schopnosti jsou na hraně použitelnosti.
Vědci z CESNETu a FIT ČVUT ve složení Karel Hynek, Jan Luxemburk, Jaroslav Pešek, Tomáš Čejka a Pavel Šiška nyní nabízejí obsáhlou datovou základnu pro studium adaptace algoritmů strojového učení na nové kybernetické hrozby, což pomůže zlepšit bezpečnost v digitálním prostředí.
V rámci projektu „Analýza šifrovaného provozu pomocí síťových toků“, který získal podporu z výzvy IMPAKT 1 Ministerstva vnitra ČR, se výzkumníci zaměřili na detekci neobvyklého síťového provozu pomocí pokročilých metod strojového učení. Rozšíření nově vzniklých detektorů však brzdí tzv. datový posun – jev, kdy naučené modely umělé inteligence (AI) po čase ztrácejí přesnost kvůli změnám v síťovém provozu, např. aktualizací e-mailového klienta, který náhle začne komunikovat jinak.
„Model strojového učení se často spoléhá na data, která časem ztrácejí aktuálnost. Změna charakteru síťového provozu kvůli novým útokům nebo službám může znamenat, že modely začnou být méně přesné, nebo dokonce přesnou fungovat úplně,“ říká Karel Hynek, výzkumník y FIT ČVUT a ze sdružení CESNET. „Proto jsme chtěli vytvořit datovou sadu zachycující síťový provoz z celého roku. Taková datová sada nemá kvůli náročnosti svého vytvoření obdoby.“
Pomocí krátkodobých datových sad dokážeme vytvořit vysoce přesný AI model, který ovšem v reálném provozu rychle zastará a je potřeba nahradit novým. Nově publikovaná datová sada nyní otevírá cestu k dlouhodobě udržitelným algoritmům pro detekci kybernetických hrozeb.
„Tato datová sada nám poskytla příležitost analyzovat vliv času na výkon algoritmů, což je pro oblast kyberbezpečnosti zásadní. Můžeme díky tomu lépe pochopit, jaké faktory způsobují datový posun a jak tomu předejít,“ dodává Jan Luxemburk, výzkumník z FIT ČVUT, který prováděl analýzu této datové sady.
Kvalitu a výjimečnost výsledného datasetu dokládá i jeho publikace v časopise Nature Scientific Data. Tento úspěch vyžadoval mimořádně důsledný přístup nejen k vědecké kvalitě samotných dat, ale také k jejich etické stránce.
„Publikace v takto prestižním časopise vždy vyžaduje o něco více práce, protože se klade důraz na kvalitu a etickou stránku výzkumu,“ vysvětluje Karel Hynek. „Od začátku jsme si uvědomovali rizika spojená s naším výzkumem, a proto jsme postupovali extrémně opatrně. Postup tvorby datové sady jsme dlouho připravovali a promýšleli. Metodu kladně zhodnotila i Komise pro etiku vědecké práce ČVUT, bez jejíhož souhlasného stanoviska by data časopis nezveřejnil.“
Nově publikovaná datová sada z dílny sdružení CESNET a FIT ČVUT poskytuje vědecké komunitě cenný nástroj pro pochopení dynamických změn v síťovém provozu. Díky dlouhodobému sběru dat se otevírají možnosti pro zkoumání adaptace strojového učení na nové kybernetické hrozby, vývoj robustnějších detektorů a novou metodologii vyhodnocování AI modelů v čase, které lépe odráží reálné nasazení.