Analiza — April 28, 2018 at 11:51 am

Managementul datelor devine o zonă cheie a strategiei pentru analytics în zona științifică

by

Big Data

Ultimii 10-15 ani au înregistrat o creștere puternică a densității, mărimii și diversității datelor științifice generate în fiecare zonă științifică din lume. Cheia în acest sens a fost explozia tehnologiilor de laborator care generează cantități mari de date în științele vieții și în domeniul sănătății. Cantități mari de date sunt acum stocate în spații foarte mari de stocare, cu o neliniște generală cu privire la abordarea analizării acestora. Practicile și implementările eficiente de gestionare a datelor sunt esențiale pentru a permite aducerea la lumina a unei poveri de date atât de mari. Răspunsul pentru rezolvarea acestor bariere este unul simplu – Big Data.

Promisiunea Big Data de acum câțiva ani, care a dus în mare parte la un torent de campanii de marketing puternice din partea organizațiilor care au câștigat din vânzările asociate cu acest concept, a dus la o transformare a modului în care cercetările au fost făcute în multe discipline științifice. Big Data promitea să permită descoperiri asistate de calculator, care nu puteau fi anticipate chiar cu planificarea atentă a experimentelor, sugerând că doar oamenii nu erau capabili să facă descoperirile secolului XXI. Algoritmii bine concepuți, platformele de analiză și o cantitate mare de putere de calcul au deschis calea către noi descoperiri care nu făceau parte din ipotezele inițiale.

Colectați cât mai multe date despre un subiect, salvați-le pe toate, analizați-le în vrac, găsiți acul în carul de fân, ștergeți-vă mâinile pe pantaloni, publicați, profitați, repetați. Această nouă paradigmă a alimentat focul pentru a dezvolta și a elibera instrumente care ar putea colecta mai multe date despre o mare varietate de teste și ar face-o pentru cea mai mică sumă de bani posibila. În domeniul științelor vieții, acest lucru a condus la progrese în secvențele de genomică de generație următoare (NGS), sisteme de captare a imaginii mai puternice și automate pentru microscoape bazate pe lumină, detectoare noi pe RMN-uri și microscoape electronice, toate cu ratele de generare a datelor în zeci de terabiți pe zi pentru fiecare laborator.

Când vine vorba de big data analytics, majoritatea oamenilor se gândesc imediat la una dintre cele două soluții: AI și Hadoop/Spark. Hadoop /Spark a devenit sinonim cu cuvintele “Big Data” și este lucrul normal pe care majoritatea oamenilor îl utilizează atunci când trebuie să opereze prin cantități mari de date nestructurate. Dar, la fel ca toate platformele tehnologice, funcționează bine doar pentru un anumit set de cazuri de utilizare. Și, ca orice platformă de date, datele bine curate fac o diferență uriașă în cât de eficient vor fi analizele. Oamenii devin din ce în ce mai rezonabili în ceea ce privește modul în care folosesc Hadoop în cercetarea lor, deoarece multe organizații au încercat acum și au un sens general despre ceea ce funcționează și nu funcționează bine pentru bunul mers al operațiunilor.

Dar, era Big Data nu este una infinită, depozitele de date cresând cu viteze impresionante. Implementarea unui cadru de gestionare a datelor care are utilitate pentru IT, precum și un model de metadate de eficiență a datelor bazate pe știință ar putea avea implicații puternice în începerea procesării chiar și prin depășirea erei Big Data. Ar putea duce la standarde de date în cadrul organizațiilor și chiar și în domenii științifice, ceea ce ar face mult mai ușor schimbul de date și accesibilitatea. De asemenea, ar fi mult mai ușor să se pună în aplicare conceptul Data Commons. Cu o mai bună curațenie a datelor și o cunoaștere completă a conținutului acestora, relevanța științifică, clasificarea datelor și standardele de date, știind dacă un anumit flux de lucru este potrivit pentru ipoteza utilizată sau asamblarea unui set de antrenament adecvat pentru modelul Deep Learning pentru a găsi acul în carul de fân devin brusc proceduri mult mai accesibile. O astfel de implementare ar face, de asemenea, mult mai ușoară publicarea datelor în alte medii de calcul și implementarea tehnologiilor cu adevărat hibride între mediile de tip cloud și public, râmânând de văzut cât de repede conceptul Big Data va deveni unul ineficient și îmbătrânit, prezentul fiind totuși era Big Data.