Odată cu explozia Big Data, imensul volum de informaţii existent reprezintă o oportunitate excelentă pentru cercetători, care acum dispun de noi surse de combustibil pentru proiectele lor. În acelaşi timp, asta înseamnă noi provocări, deoarece muntele de informaţii necesită noi operaţiuni pentru maximizarea şi crearea de informaţii relevante.
Astăzi explorăm nu doar noi căi de a implementa HPC(high performance computing) cu practici IA pentru scoaterea la lumină a acelor informaţii relevante, ci şi pentru a crea instrumente mai bune pentru aproape fiecare etapă a fluxurilor de lucru HPC moderne în scopul de a oferi cercetătorilor abilităţi de a descifra ceea ce pare indescifrabil şi de a face ordine în haosul creat de potopul de date.
Simulare inteligentă
Salturile pe care zona de high performance computing le-a înregistrat în termeni de putere de procesare date nu se corelează întotdeauna cu obţinerea de informaţii mai bune, iar specialiștii IBM examinează moduri prin care cercetătorii pot aplica instrumente avansate de analiză date pentru a proiecta experimente mai bune. Un astfel de instrument este metodologia Bayeziană, un principiu matematic dovedit care analizează ce ştiu eu şi sugerează ce ar trebui să fac la pasul următor, prin aceasta ajutând la eliminarea simulărilor cu grad mare de incertitudine legat de obţinerea rezultatelor dorite de la experimente.
IBM a lucrat cu clienţi din industria farmaceutică, din cea chimică şi din sfera ştiinţei materialelor, şi a observat că aplicarea principiilor Bayeziene a redus numărul de simulări cu până la 75%, în acelaşi timp crescând acurateţea răspunsurilor. Într-o epocă în care Legea lui Moore nu mai are însemnătatea de odinioară, un astfel de rezultat este dramatic, iar aceste tehnici ar putea reprezenta calea către reducerea dramatică a costurilor hardware şi către obţinerea de informaţii mai profunde printr-o combinaţie de HPC clasic şi tehnici moderne de analiză date.
Actualmente se lucreză la incorporarea acestei capabilităţi într-o aplicaţie care poate fi instalată adiacent unui cluster existent, în orice fel de arhitectură, pentru a îmbunătăţi capacitatea de procesare a acestuia. În forma sa curentă, aplicaţia va fi pre-programată, astfel încât cercetătorii vor avea nevoie doar să ceară sistemelor să facă schimb de date, iar aplicaţia Bayeziană va proiecta instrucţiuni de simulare mai inteligente pentru clusterul primar. Însă acesta este doar primul pas din procesul de a face simulările mai inteligente, şi se observă deja un suport puternic al ecosistemului pentru construirea de soluţii inteligente de simulare.
Descoperiri cognitive pentru HPC
Chiar dacă pot proiecta experimente mai inteligente, metodele de analiză avansată precum optimizarea Bayeziană continuă să se bazeze pe tehnici HPC tradiţionale pentru îndeplinirea sarcinilor. În plus, pregătirea şi incoporarea datelor nestructurate poate ocupa până la 80% din timpul unui cercetător, iar optimizarea Bayeziană nu adresează această problemă primară.
În urma colaborărilor cu mulţi clienţi din domeniile oil and gas, materiale, producţie şi altele, IBM cercetează noi instrumente care să ajute la incorporarea datelor pe scară largă. Aceste instrumente integrate sunt proiectate ca să ajute mai bine la alcătuirea unui catalog de date ştiinţifice, după care să transforme automat datele într-un “graf al cunoaşterii”, o reprezentare vizuală a relaţiilor dintre date. Cercetătorii IBM au folosit astfel de instrumente, încă indisponibile public, ca să construiască un graf al cunoaşterii de 40 milioane documente ştiinţifice în doar 80 de ore, cu un ritm de 500.000 de documente pe oră. Instrumentele de cercetare pot incorpora şi interpreta date formatate ca PDF-uri, însemnări scrise de mână, spreadsheet-uri, imagini şi altele. Instrumentul este proiectat pentru a genera ordine în datele haotice şi contribuie la stabilirea unei memorii instituţionale pentru toate sarcinile HPC efectuate vreodată de o organizaţie, acest fapt fiind de o importanţă critică pe măsură ce angajaţii se pensionează sau pleacă din firmă.
Instrumentul dispune de capabilităţi aprofundate de căutare care permit explorarea unor sarcini foarte complicate privitoare la graful cunoaşterii, oferind simultan materiale cu rezultate relevante statistic pentru sarcina dorită.
Ca să fie aplicate într-o gamă largă de cazuri de utilizare posibile, aceste instrumente pot fi folosite la crearea de aplicaţii verticale specifice domeniului. De exemplu, anterior în cursul acestui an, cu ocazia evenimentului ACS de la Boston, am prezentat un astfel de instrument, denumit IBM RXN, care prezice rezultatul reacţiilor chimice organice. Instrumentul este disponibil online, gratuit, pentru folosire pe sistemul IBM Zurich system. În contextul HPC, această tehnologie prezintă o abordare unificată pentru a complementa simulările existente cu instrumente de analiză bazate pe date. Iar în unele cazuri ea poate chiar să înlocuiască complet simularea mod-sim clasică.