Expert IT — September 20, 2021 at 10:22 am

Ajutăm specialiștii în date să îmbunătățească viteza și inteligența proceselor

by

Când IT-ul a lansat o platformă de Enterprise Data Science în 2020, pentru a ajuta specialiștii în date să construiască procese bazate pe inteligență artificială (AI) și machine learning (ML) în cadrul Dell, principala provocare era ca cei 1.800 de angajați din companie deja implicați în știința datelor (data science) să adopte aceste procese.

istock_000001402061xsmallAnul trecut, platforma era utilizată în proporție de 50%, iar utilizarea sa este în creștere; între timp, se înregistrează și o creștere a cererii de capabilități în domeniul științei datelor, iar în acest context, Dell IT continuă să investească în IA și ML. Acum avem în perspectivă o provocare mai amplă: toate aplicațiile Dell să se folosească de inteligență artificială și machine learning.

Un aspect fundamental pentru realizarea acestei viziuni este îmbunătățirea proceselor de date și a vitezei acestora, îmbunătățind astfel experiența end-to-end a specialiștilor în date.

Ce am învățat

Într-un articol anterior, descriam crearea platformei de Enterprise Data Science – Democratizing Data Science, A Federated Approach to Supporting AI and ML. Această platformă suportă în prezent peste 650 de utilizatori și va atinge pragul de 1.000 de utilizatori, până la finalul anului. În consecință, echipa Enterprise Data Science a adoptat o abordare mai holistică a științei datelor. Am descoperit câteva aspecte-cheie, care ne ajută să investim în direcția corectă.

În primul rând, am descoperit că nu există o soluție unică pentru toate provocările, în domeniul științei datelor. Există trei tipuri de utilizatori de date – echipele în curs de formare, echipele proaspăt formate care au înregistrat primele lor reușite și echipele mature, care sunt în căutare de capabilități avansate. Dacă prima categorie de utilizatori are nevoie de o soluție simplă și ușor de folosit, a treia categorie își dorește o soluție customizabilă, care o va ajuta să acceseze resurse ample de date sau modele de implementare și integrare.

Depunem eforturi să satisfacem aceste nevoi diverse, folosindu-ne de standardizare, planuri de execuție și automatizări. Le satisfacem și punând la dispoziția specialiștilor în date o echipă IT la care pot apela direct pentru sfaturi și ajutor.

Există profiluri diferite de utilizatori de date, dar există și nevoi comune. Toate încep cu datele – cu nevoia de a le descoperi, de a le obține, de a le procesa în siguranță și de a le analiza pentru a obține tipare și informații utile. De obicei, lucrează în mod iterativ, adică obțin datele, le analizează, le interpretează și validează rezultatele, apoi o iau de la început și obțin alte date. E un ciclu urmat de utilizatori pentru a obține datele care le susțin ipotezele. De obicei, aceste ipoteze se nasc din oportunități de afaceri identificate de un expert în domeniu și preluate de ingineri și specialiști în date. Cu cât ciclul validează ipoteza mai rapid, cu atât sunt mai bune rezultatele pe care le poate livra echipa de știința datelor.

Echipa responsabilă pentru platforma Enterprise Data Science lucrează la instrumente care sporesc viteza acestor procese repetitive, în special a automatizării accesului la date și a procesării de date, arie asupra căreia specialiștii în date se concentrează cel mai mult.

În prezent, specialiștii în date trebuie să descopere singuri unde sunt datele de care au nevoie în bazele de date Dell și cum să le acceseze. E posibil să caute prin tabele și să întrebe în stânga și în dreapta, până găsesc ce caută. Imaginați-vă sute de oameni care fac asta în mod repetat și izolați. Activitatea lor le permite să descopere și să creeze în mod efectiv valoare din informații, definind datele cele mai utile pentru optimizarea unui proces.

Obiectivul nostru este de a ajuta specialiștii în date să se miște mai repede și să extragă datele valoroase pe care le creează. Pentru a atinge acest obiectiv, colaborăm cu specialiștii noștri în date, pentru a identifica ariile de top din care colectează datele și pentru a oferi o soluție care standardizează procesul de descoperire, colectare și procesare a datelor din aceste locații. Ideea este să le permitem să acceseze datele instantaneu și în siguranță, în data lake-ul Dell și în multe alte depozite de date din companie.

Când specialiștii în date obțin datele dorite, le oferim suport pentru a versiona, documenta, testa și cataloga noile seturi de date pe care le creează și le pun la dispoziția altor echipe specializate în date.

Toate capabilitățile noastre se bazează pe API-uri (Application Programming Interfaces) pe care le combinăm în pachete de tip SDK (Software Development Kit) și le punem la dispoziția specialiștilor în date. Acestea îi ajută să ne utilizeze tehnologia mai ușor, folosind limbajul preferat (ex. Python), într-o manieră foarte simplă și eficientă.

Ne apropiem mai rapid de modelele AI

Dincolo de aspectele legate de date, specialiștii în date au în comun nevoi legate de alți pași ai procesului de dezvoltare, inclusiv utilizarea algoritmilor pentru a rezolva o problemă și apoi construirea și antrenarea modelului care livrează rezultatul dorit.

Pe măsură ce am adaptat suportul acordat specialiștilor în date, echipa noastră a realizat că majoritatea specialiștilor în date își configurează algoritmi foarte similari, pentru funcții specifice în cadrul modelelor și că, în mod invariabil, își încep munca folosind cantități mici de date. Apoi, își cresc modelele în timp. Totuși, observăm că fiecare membru al echipei noastre își începe fiecare proiect de la zero.

Echipa Enterprise Data Science include o sub-echipă specializată în DevOps pentru AI și ML, care asigură template-uri și configurări de infrastructură, pentru a ajuta specialiștii să își pună modelele în funcțiune mai rapid și să le crească în mod mai eficient. Obiectivul nostru este de a facilita proiecte mai rapide, de la design, până la producție. Cu acest scop, echipa noastră de software engineering lucrează împreună cu specialiștii în date, în primul rând pentru a înțelege și executa o serie de cazuri de utilizare, apoi pentru a identifica punctele în care procesul este repetitiv și pentru a crea soluții.

Activitatea noastră inițială ne-a ajutat să creăm algoritmi de bază, ceea ce înseamnă că specialiștii în date nu vor fi nevoiți să pornească de la zero, de fiecare dată când își creează modele. În mod similar, specialiștii în date pot folosi planurile de execuție care îi ajută să ruleze sarcini de lucru în paralel, să folosească instanțe de calcul specializate (de tipul GPU-urilor), să antreneze și să re-antreneze algoritmii la scară. Primele noastre template-uri sunt incluse în fiecare spațiu de lucru de pe platforma noastră AI/ML, iar utilizatorii trebuie doar să le deschidă și să-și facă modificările ca să se apuce de treabă. Datele inițiale indică faptul că utilizatorii pot progresa de la idee la producție de 6 până la 10 ori mai repede, cu ajutorul acestor instrumente.

Reglaje fine, pe ultima sută de metri

Din punctul de vedere al clientului și al afacerii, cel mai important pas în știința datelor este „ultima sută de metri” a procesului – când modelele de AI și ML sunt implementate în aplicațiile Dell, pentru a obține valoare din noile observații și inovații pe care le generează. Și aici, echipa responsabilă pentru platforma Enterprise Data Science lucrează să sporească viteza și eficiența, adăugând template-uri, instruire și suport.

Pentru a accelera aceste task-uri, echipa se concentrează asupra transferului de abilități și asupra instruirii. Pe de-o parte, trebuie să antrenăm specialiștii în date să construiască modele mai bine pregătite pentru deployment, folosind tehnologie standardizată, pe care inginerii noștri o pot înțelege și o pot implementa rapid în aplicații. Pe de alta, trebuie să ajutăm echipele de engineering să se familiarizeze cu tehnologiile bazate pe știința datelor, pentru a finisa deployment-urile la nivel de producție.

Momentan, echipa lucrează la 7 cazuri de engagement în producție, pentru a implementa modele noi de date în aplicațiile IT. Acestea îi vor ajuta pe ingineri să definească tipare de standardizare și să creeze o arhitectură comună. Până la jumătatea lui 2021, sperăm să reducem durata implementărilor de acest gen de la mai multe luni, până la 6-8 săptămâni.

Știința datelor, AI și ML sunt arii ale tehnologiei care se schimbă cel mai mult și, în același timp, reprezintă o oportunitate uriașă pentru noi de a îmbunătăți experiența clienților și rezultatele comerciale. Am făcut progrese uriașe în îmbunătățirea proceselor de știința datelor care susțin inovația în toate diviziile Dell și vom continua să dezvoltăm capabilități standard și automate, pentru a îmbunătăți eficiența.

Totuși, poate cel mai mare succes al nostru este faptul că oferim suport într-o manieră mai directă și mai ne-automatizată. Când specialiștii în date și inginerii au nelămuriri, ne pot contacta, cineva de la IT va răspunde, iar noi învățăm din fiecare interacțiune. Asta definește echipa noastră de Enterprise Data Science.

de Francisco Garcia, Director, Enterprise AI and Data Science Capabilities, Dell Technologies