Odvrácená strana umělé inteligence: Krade na internetu

Umělá inteligence (AI) se na internetu chová, jako by jí všechno patřilo. A bere si data a informace bez povolení. Nápor na weby mnohdy připomíná nevybíravé kybernetické útoky. Provozovatelé webových stránek hledají cesty, jak se chránit, ale AI zákazy často obchází.
Umělá inteligence se na internetu často chová tak, jako by jí všechno patřilo. Ilustrační foto: Pixabay.com
Umělá inteligence se na internetu často chová tak, jako by jí všechno patřilo. Ilustrační foto: Pixabay.com

Finanční a ekonomické informace (faei.cz) na tento problém upozornila společnost Pagespeed.ONE, která se zaměřuje na měření a optimalizaci rychlosti webů. Připomněla, že běžní uživatelé stále častěji vyhledávají informace na internetu pomocí umělé inteligence.

Ta pro ně pak rychle obstarává požadovaná data z veřejně dostupných webových stránek. Jenže AI často přebírá obsah bez povolení. Takzvané scrapování (stahování, kopírování dat – pozn. aut.) navíc vytváří na weby velký nápor, který může mít až charakter kybernetického útoku.

„V praxi jsme se u jednoho z našich klientů setkali s tím, že se jeho web musel během několik dní vypořádat se 120 tisíci dotazů od jediného AI bota,“ přiblížil Martin Michálek ze společnosti Pagespeed.ONE, jakou extrémní zátěž umělá inteligence způsobuje.

Provozovatelé webů se sice scrapování snaží zabránit a zakázat, ale některé AI platformy to obcházejí. Odborníci doporučují pořízení ochranných nástrojů, zároveň věří, že této praxi zamezí evropská legislativní novinka, která by měla zavést účinnější regulaci i transparentnost.

Jak AI vlastně pracuje? „Když se například uživatel zeptá ChatGPT na něco, co vyžaduje procházení internetu, model si obsah z webů stáhne,“ uvedl Ivan Sárközi z obchodního oddělení poskytovatele hostingu Wedos.

Krátkodobé zpomalení

AI bot si na jeden dotaz projde třeba deset stránek i více, z toho několik může být na jednom webu. „Na běžném sdíleném webhostingu to může způsobit krátké zpomalení nebo zpoždění odpovědí pro ostatní návštěvníky,“ upozornil Sárközi.

To je přitom zásadní rozdíl oproti vyhledávačům, které stránku načtou pouze jednou. „Pak ji zařadí do indexu a dál pracují s uloženými daty. Jazykové modely, jako ChatGPT, žádný index nemají, naopak při každém dotazu stahují obsah znovu a znovu,“ poznamenal odborník.

To může být problémem i u menších webů. Některé konkrétní příklady podle Sárköziho skutečně ukazují, že chování AI botů může často nést podobné znaky jako kybernetický útok.

„Setkali jsme se s tím, že přístup z infrastruktury AI modelu Claude byl natolik intenzivní, že začal zpomalovat nebo i krátkodobě odstavovat několik webů na sdíleném hostingu. Technicky to odpovídalo menšímu DDoS útoku, tak k tomu při řešení přistupovali i technici,“ řekl Sárközi.

Data bez povolení

Podle Lukáše Putny, technického ředitele Heureka Group, je agresivní scraping zastaralý způsob, který zbytečně zatěžuje infrastrukturu. „Pro nás je to spíše signál, že trh má o data zájem. A naším úkolem je nabídnout je v mnohem lepší a kultivovanější formě,“ dodal.

Problémem scrapování je také to, že se často děje bez jakéhokoliv povolení ze strany provozovatelů webů. „Z právního hlediska může zasahovat do autorských a souvisejících práv, případně do práv k databázím,“ řekl právník Jiří Čermák z kanceláře Jansa, Mokrý, Otevřel & partneři.

Dodal, že právní problém to může být zejména u takzvaného dovolání z textu a dat. U obecnějších forem scrapingu může za určitých okolností dojít také k porušení smluvních podmínek, například pokud je přístup ke službě vázán na souhlas s nimi.

„Docházet může i k nekalé soutěži, jako je porušení obchodního tajemství, nebo neoprávněnému zpracování osobních údajů,“ upozornil Čermák. Některé weby a sociální sítě se proto snaží scrapování zakázat, podle odborníků jim však tento přístup může paradoxně uškodit.

Ukazuje to příklad z minulosti, kdy někteří provozovatelé zakazovali přístup botům od Googlu. „Až pozdě zjistili, že je konkurence předběhla, protože Google jim přinášel cennou návštěvnost. Podobně je to teď s novou vlnou AI botů na webu,“ Martin Michálek z Pagespeed.ONE.

Evropská legislativa

Michálek doporučil, aby správci webu paušálně přístupy nezakazovali a dělali to jen v opodstatněných případech. Stejný názor má rovněž Lukáš Putna z Heureky:

„Věříme, že stavět zdi a uplatňovat striktní zákazy není dlouhodobě udržitelná cesta, protože to inovace spíše brzdí. Místo boje s nástroji na obcházení opatření nabízíme konstruktivní alternativu – moderní API, které umožňuje smysluplné využití dat ku prospěchu všech,“ řekl.

Podle Michálka je navíc na zákazy již pozdě. Také proto, že AI disponuje nástroji, jak všechny zákazy obcházet. Klíčová je tak podle něj ochrana jednotlivých webů, která by měla zahrnovat rozeznání AI botů a jejich případné zablokování či zpomalení.

Vedle toho mohou být důležitými prvky také skrytí e-mailových adres či ochrana proti načítání obrázků z jiných stránek. Podobně se na problém dívá Roman Pech, marketingový specialista poskytovatele hostingu Forpsi, podle něhož zákazy samy o sobě problém nevyřeší.

„Důležitější je kombinace technických opatření a právních kroků,“ sdělil Pech. Jedním z právních zásahů by měla být připravovaná evropská legislativa pod označením AI Act.

„Ta scraping sám o sobě nezakazuje, ale vyžaduje transparentnost ohledně dat použitých pro trénink velkých jazykových modelů a obecných modelů umělé inteligence, která jsou často získávána prostřednictvím vytěžování textu a dat,“ upřesnil už citovaný právník Jiří Čermák.

Začátek platnosti AI Actu vyhlíží i poskytovatelé hostingu. Dá se podle nich očekávat, že scrapování bude legální jen v určitých mezích – například pro výzkum nebo s výslovným souhlasem.

Zavřít reklamu
Sdílet článek
Diskuse 0
Sdílet článek