/

/

Twoi pracownicy już korzystają z AI. Czy masz nad tym kontrolę?

Twoi pracownicy już korzystają z AI. Czy masz nad tym kontrolę?

Twoi pracownicy już korzystają z AI. Czy masz nad tym kontrolę?

Twoi pracownicy już korzystają z AI. Czy masz nad tym kontrolę?

Co dzieje się z danymi firmowymi w modelach językowych i jak nad tym zapanować.

Andrzej Kossakowski

6 min

czytania

Co naprawdę dzieje się z informacjami wprowadzanymi do LLM

Sztuczna inteligencja, a w szczególności modele językowe określane jako LLM (Large Language Models), stały się elementem codziennej pracy wielu osób. Wykorzystywane są m.in. do tworzenia tekstów i analizy informacji. W tym artykule nie będziemy rozważać futurystycznych wizji rozwoju AI ani oceniać konkretnych narzędzi. Skupimy się na jednym zagadnieniu: co faktycznie dzieje się z danymi, które użytkownik wprowadza do modeli językowych, zwłaszcza gdy są to informacje wrażliwe.

Czym w rzeczywistości jest model językowy

Modele językowe są systemami statystycznymi wytrenowanymi na bardzo dużych zbiorach tekstów. Ich zadaniem jest generowanie kolejnych fragmentów tekstu w taki sposób, aby były one możliwie najlepiej dopasowane do dostarczonego kontekstu. LLM nie rozumie tekstu w ludzkim sensie, ale potrafi bardzo trafnie generować odpowiedzi dopasowane do kontekstu.

Odpowiedź modelu powstaje jako wynik obliczeń statystycznych - system wybiera najbardziej prawdopodobne następne słowo na podstawie wzorców wyuczonych w trakcie treningu. Nie posiada świadomości ani intencji. Nie „wie", czy informacja jest prawdziwa czy poufna - operuje wyłącznie na tych wzorcach, bez rozumienia ich treści.

Skąd modele biorą wiedzę

Proces uczenia modeli językowych odbywa się na etapie treningu, zanim zostaną one udostępnione użytkownikom. W tym czasie wykorzystywane są bardzo duże zbiory danych, na podstawie których model uczy się zależności językowych i kontekstowych. Model nie aktualizuje swoich parametrów w czasie rzeczywistym podczas pojedynczej rozmowy. Oznacza to, że wpisane przez użytkownika dane nie „uczą" modelu natychmiast ani nie są zapamiętywane jako konkretne rekordy.

Jednocześnie w przypadku niektórych publicznych, zwłaszcza darmowych usług, dane wprowadzane przez użytkowników mogą być wykorzystywane przez dostawcę do dalszego doskonalenia modeli lub trenowania ich kolejnych wersji - zgodnie z warunkami korzystania z usługi. Zwykle odbywa się to w sposób zbiorczy i przetworzony, a nie poprzez dosłowne włączenie pojedynczych rozmów do modelu. Oznacza to, że pojedyncza dana - na przykład informacja o budżecie konkretnej firmy - nie powinna wpłynąć na przyszłe odpowiedzi modelu. Nie istnieją jednak żadne gwarancje, że wprowadzone informacje nie zostaną w jakiejś formie ujawnione lub odtworzone w odpowiedziach generowanych dla innych użytkowników. Użytkownik nie ma pełnej kontroli nad tym, czy i w jaki sposób jego dane zostaną wykorzystane w procesach rozwojowych po stronie dostawcy.

Badania opublikowane w 2025 roku wykazały, że niektóre publicznie dostępne modele językowe potrafią odtworzyć z pamięci całe książki ze swoich danych treningowych - niemal słowo w słowo [1]. W tym samym roku firma Anthropic (twórca chatbota Claude) zawarła ugodę na 1,5 miliarda dolarów w związku z wykorzystaniem pirackich książek do trenowania swoich modeli [2]. Jeśli model potrafi zakodować w swoich parametrach pełną treść książki, dane wprowadzane przez pracowników Twojej firmy do chatbotów - oferty, umowy, dane klientów, wewnętrzne analizy - mogą w podobny sposób zostać utrwalone w modelu i potencjalnie ujawnione w odpowiedziach generowanych dla innych użytkowników. Dlatego przed wdrożeniem jakiegokolwiek narzędzia AI w organizacji warto upewnić się, że wybrany wariant usługi gwarantuje, iż dane nie są wykorzystywane do dalszego trenowania modelu, oraz że samo narzędzie jest odpowiednio skonfigurowane pod kątem prywatności.

Jak przetwarzane są dane w trakcie rozmowy

Dane wprowadzane przez użytkownika są przetwarzane w celu wygenerowania odpowiedzi. Treść zapytania staje się częścią kontekstu bieżącej rozmowy, a model wykorzystuje ją do obliczenia najbardziej prawdopodobnej odpowiedzi. Całość odbywa się w ramach infrastruktury dostawcy usługi. Modele językowe nie są zaprojektowane jako bezpieczne repozytorium danych. Są narzędziami do przetwarzania tekstu, a nie systemami gwarantującymi kontrolowane, długoterminowe przechowywanie informacji wrażliwych z perspektywy użytkownika.

Użytkownik ma ograniczoną wiedzę na temat tego, jak dostawca przechowuje i zabezpiecza dane po swojej stronie. W praktyce oznacza to, że wprowadzane informacje opuszczają środowisko organizacji i trafiają do infrastruktury zewnętrznej.

Halucynacje - czym są naprawdę

Halucynacje w kontekście LLM to sytuacje, w których model generuje treści brzmiące spójnie i wiarygodnie, mimo że nie posiada wystarczających danych lub kontekstu, aby odpowiedź była poprawna. Halucynacje nie są błędem technicznym ani awarią systemu i nie wynikają z „intencji" modelu. Są naturalnym efektem działania mechanizmu, który zawsze próbuje wygenerować odpowiedź.

W kontekście bezpieczeństwa danych problem polega na tym, że model może wygenerować treści wykraczające poza pierwotną intencję użytkownika. W określonych sytuacjach może to zwiększać ryzyko ujawnienia informacji w szerszym kontekście, niż zakładała osoba zadająca pytanie.

Czy AI może ujawnić dane użytkownika

Model nie posiada dostępu do zewnętrznych baz danych konkretnego użytkownika ani nie „pamięta" jego danych w tradycyjnym sensie. Jednak można tu rozróżnić dwa poziomy ryzyka: ryzyko generacyjne oraz ryzyko infrastrukturalne. Ryzyko generacyjne dotyczy sytuacji, w której model wygeneruje treść niezgodną z oczekiwaniami użytkownika. Ryzyko infrastrukturalne dotyczy faktu, że dane wprowadzone do systemu są przetwarzane przez infrastrukturę dostawcy.

Każda infrastruktura informatyczna może stać się przedmiotem incydentu bezpieczeństwa: błędu konfiguracji, nieuprawnionego dostępu, podatności technicznej czy wycieku danych. Publiczne modele językowe nie są tu wyjątkiem. W praktyce oznacza to, że dane wrażliwe wprowadzone do publicznego LLM mogą być zapisywane w logach, przechowywane zgodnie z polityką dostawcy i w skrajnych przypadkach mogą stać się częścią incydentu bezpieczeństwa po stronie dostawcy. Ryzyko to nie jest specyficzne wyłącznie dla AI - dotyczy każdej usługi chmurowej. W przypadku modeli językowych użytkownicy często zapominają jednak, że korzystają z infrastruktury zewnętrznej.

Dodatkowym problemem jest sposób, w jaki narzędzia AI trafiają do organizacji. Często dzieje się to bez wiedzy działu IT - pracownicy samodzielnie zakładają konta w serwisach takich jak ChatGPT czy Gemini, nierzadko logując się przez firmowe konto Microsoft 365 lub Google Workspace. W ten sposób narzędzie zewnętrzne zostaje powiązane z tożsamością firmową, bez kontroli nad tym, jakie dane przez nie przepływają. Brak weryfikacji dwuetapowej (MFA) na takim koncie dodatkowo zwiększa ryzyko - w przypadku przejęcia konta atakujący uzyskuje dostęp do całej historii rozmów z chatbotem, w tym do wszystkich danych, które pracownik wcześniej wprowadził.

Przykład z praktyki: gdy zawodzi intuicja, nie kompetencje

W mediach branżowych oraz oficjalnych komunikatach opisywano przypadki, w których osoby zajmujące wysokie stanowiska w administracji publicznej Stanów Zjednoczonych korzystały z publicznie dostępnych modeli językowych do przetwarzania treści zawierających informacje wrażliwe. W 2025 roku p.o. szefa CISA (amerykańskiej agencji ds. cyberbezpieczeństwa) wgrał do publicznej wersji ChatGPT dokumenty kontraktowe oznaczone jako „tylko do użytku służbowego", co wywołało automatyczne alerty bezpieczeństwa w sieci federalnej [3]. Powodem było błędne założenie, że narzędzie działa podobnie do lokalnego edytora tekstu. W efekcie do systemów opartych o AI trafiały dane, które zgodnie z obowiązującymi zasadami bezpieczeństwa nie powinny opuszczać kontrolowanego środowiska. Sytuacje te prowadziły do wewnętrznych analiz i wydawania ograniczeń w korzystaniu z publicznych modeli językowych w instytucjach rządowych.

Ten przykład pokazuje, że źródłem ryzyka jest fałszywe poczucie kontroli, jakie daje intuicyjny, konwersacyjny interfejs.

Co z tego wynika w praktyce

Modele językowe są użytecznym narzędziem, ale wymagają świadomego użycia. W praktyce oznacza to, że dane wrażliwe i poufne nie powinny trafiać do publicznych modeli. Brak „pamięci modelu" nie oznacza, że dane nie są przetwarzane w infrastrukturze dostawcy. AI to zewnętrzna usługa chmurowa, nie lokalne narzędzie. AI samo w sobie nie jest zagrożeniem. Ryzyko pojawia się wtedy, gdy oczekujemy od modeli językowych poziomu kontroli nad danymi, którego technicznie nie zapewniają.


————

Źródła:

[1] Cooper, A. F. et al., Extracting memorized pieces of (copyrighted) books from open-weight language models, arXiv, 2025 - https://arxiv.org/abs/2505.12546

[2] ITHardware.pl, Największa ugoda w historii AI. 1,5 miliarda za nielegalne książki, wrzesień 2025 - https://ithardware.pl/aktualnosci/miliardowa_ugoda_ai-44876.html

[3] Politico / CSO Online, CISA chief uploaded sensitive government files to public ChatGPT, styczeń 2026 - https://www.csoonline.com/article/4124320/cisa-chief-uploaded-sensitive-government-files-to-public-chatgpt.html

Copyright © 2025 Helpwise IT

Developed by Well Done IT

Copyright © 2025 Helpwise IT

Developed by Well Done IT

Copyright © 2025 Helpwise IT

Developed by Well Done IT