Articolul analizează implicațiile juridice și etice ale antrenării modelelor de inteligență artificială generativă (GenAI) folosind date colectate prin web scraping, în special materiale protejate prin drepturi de autor. Autorii arată că procesul de antrenare a modelelor GenAI este fundamental diferit de activitățile clasice de Text and Data Mining (TDM), întrucât scopul său nu este extragerea de cunoștințe, ci generarea de conținut nou care imită structura și stilul datelor de antrenament.

Lucrarea compară principalele cadre legale internaționale – precum excepțiile TDM din Directiva DSM a Uniunii Europene, doctrina „fair use” din SUA și legislațiile din Canada, Japonia și Marea Britanie – concluzionând că niciuna dintre acestea nu oferă un cadru clar și complet pentru utilizarea datelor protejate în scopul antrenării modelelor generative.

Autorii evidențiază o problemă distinctă: modelele GenAI pot memora fragmente din datele de antrenament, ceea ce ridică riscuri de încălcare a drepturilor de autor atunci când modelele sau rezultatele lor sunt distribuite. În acest context, este esențială o documentare transparentă a provenienței datelor de antrenament, în concordanță cu cerințele Actului privind Inteligența Artificială al Uniunii Europene (AI Act).

Studiul recomandă adoptarea unui sistem gradual de documentare – de la metadate de bază la identificare prin amprentare digitală – și o colaborare strânsă între dezvoltatori, titularii de drepturi și cercetători. Concluzia principală este că, până la stabilirea unor reglementări clare, responsabilitatea legală revine dezvoltatorilor de AI, care trebuie să asigure transparență, respectarea drepturilor de autor și trasabilitatea datelor folosite în antrenare.

Sursa: Tim W. Dornis & Sebastian Stober, „Generative AI Training and Copyright Law”, 2025.

LinkedIn
Share
WhatsApp