Adopția diferitelor tehnologii de Inteligență Artificială (AI) va avea efecte pozitive pentru toată lumea, având în vedere potențialul AI de a atinge aproape orice parte a societății. Dar, în ciuda acestor beneficii și a impactului pe care îl poate avea asupra vieților noastre, se poate observa că adopția pe scară largă a AI este constrânsă de limitările impuse de volumul de date.
Alimentate de avansul inovațiilor algoritmice de procesare a datelor, programele AI sunt consumatoare uriașe de date. Astfel, organizațiile care doresc să implementeze eficient vor avea nevoie de acces la un volum mare da date relevante, bine-organizate și de încredere.
Companiile mari de tehnologie, precum Google, Apple și Amazon, au acces la un canal de date aproape nelimitat prin canalele diverse create de produsele și serviciile pe care le comercializează. Este creat astfel un ecosistem perfect pentru specialiștii în date să își învețe algoritmii pe care îi dezvoltă.
Pentru companiile mici și mijlocii, inclusiv departamente ale sectoarelor publice, obținerea datelor pe scară largă este o provozare mult mai mare. Datele cu care lucrează aceștia sunt de multe ori în proprietatea cuiva, fiind restricționată utilizarea lor prin înțelegeri contractuale. De asemenea, nu au standarde de utilizare a datelor, ceea ce face ca folosirea lor s fie costisitoare fiind nevoie de introducerea manuală a datelor.
Toate acestea ne arată că datele devin o barieră în inovație și adopția la scară a Inteligenței Artificiale.
Pot fi datele sintetice răspunsul?
Cu excepția companiilor mari de tehnologie, cu accesul lor nesfârșit la date, realitatea este că constul de obținere a datelor de calitate este foarte mare. Pentru a trece peste această provocare, companiile se îndreaptă tot mai mult către datele sintetice.
Dar ce sunt datele sintetice?
În forma cea mai pură, datele sintetice (artificiale) sunt generate prin programe soft care imită viața reală. În prezent, datele artificiale au început să aibă un impact în zona medicală și în procesele științifice pentru a evita problemele asociate cu datele de sănătate. De asemenea, în cadrul creării de software pot fi folosite pentru o dezvoltare rapidă și DevOps cu scopul unei testări mai rapide a softului, în timp ce cliclurile de testare a calității sunt îmbunătățite.
Deși generarea de date artificiale este posibilă din anii 1990, un interes crescut a apărut recent. Interesul este condus de avansul masiv în puterea de procesare a computerelor, completat de costurile reduse de stocare și apariția noilor algoritmi de procesare, precum Generative Adversial Networks (GAN).
Datele generate pot și anonimizate și create pe baza un parametri specifici utilizatorului, astfel încât au proprietăți foarte apropiate de experiențele scenariilor din lumea reală. În acest fel, principalul avantaj al utilizării datelor artificiale este scalabilitatea și flexibilitatea.
În esență, datele permit dezvoltatorilor AI să genereze cât de multe date au nevoie pentru a învăța algoritmii să lucreze cu datele și să îmbunătățească performanța și acuratețea rezultatelor.
Utilizarea datelor artificale în viața reală
Datele artificiale pot ajuta companiile și cercetătorii să construiască baze de date capabile să învețe programele AI. Într-un mod similar cu utilizarea materialelor artificiale de către oamenii de știință pentru a face experimente fără risc, companiile pot acum folosi datele artificiale pentru a minimaliza costurile și timpul necesar.
Un exemplu de utilizare este autovehiculul autonom al Google, Waymo, care a mers peste patru milioane de kilometri de drumuri simulate artificial. Utilizarea datelor artificiale a permis inginerilor Waymo să testeze și să îmbunătățeascî softul într-un mediu sigur înainte de a fi testat în viața reală.
Potențialul aplicațiilor de generare a datelor artificiale merg dincolo de mașinile autonome. Exemplele includ crearea de fenomene meteo rare, accidente auto sau simptome ale unor boli rare. În modelarea situațiilor de excepție, datele artificiale ar putea fi singurul mod de a ne asigura că sistemele AI sunt pregătite pentru orice situație.
Datele artificiale nu sunt însă soluția perfectă pentru orice situație
În ciuda avantajelor evidente, trebuie să se ia în considerare faptul că datele artificale rămân o copie a unor date reale cu proprietăți specifice. Un model caută trenduri pe care să le replice, drept pentru care comportamentele aleatorii din viața reală ar putea rămâne neacoperite.
Dreptul la intimatate trebuie de asemenea respectat, iar oamenii trebuie să aibă posibilitatea de a refuza utilizarea datelor proprii. Apare astfel posibilitatea ca utilizarea datelor artificiale să ducă la o înțelegere greșită în perioada de dezvoltare a aplicațiilor AI față de modul de folosire a datelor din viața reală.
Deși au fost făcute progrese mari, provocarea principală este garantarea acurateții datelor artificiale. Trebuie să ne asigurăm că proprietățile statistice ale datelor artificiale sunt împerecheate în mod corect cu proprietățile bazelor de date originale. Acesta rămâne și principalul subiect al cercetărilor din prezent.