Diarizarea vorbitorilor este procesul tehnic de împărțire a unui flux de înregistrare audio care include adesea un număr de vorbitori în segmente omogene. Aceste segmente sunt asociate cu fiecare vorbitor individual. Pe scurt, așa arată procesul „din culise” atunci când transcrieți un fișier de înregistrare audio.
De exemplu, de fiecare dată când alegeți să înregistrați o întâlnire din Zoom sau din altă aplicație de videoconferință, procesul de „diarizare a vorbitorului” are loc în culise. Deși diarizarea vorbitorului ar putea părea o sarcină simplă, modelul tehnologic din spatele acesteia este destul de complex.
De fapt, giganții tehnologici de ultimă generație precum Rev, IBM și Google lucrează, construiesc și testează continuu diverse modele de sisteme de diarizare a vorbitorilor pentru a reduce ratele de eroare de diarizare și pentru a îmbunătăți acuratețea generală a conținutului audio.
Cum funcționează un sistem de diarizare a vorbitorilor?
Deci, aceasta ridică întrebarea: Cum fac sistemele automate de transcriere a vorbirii diarizarea vorbitorilor? După cum am explicat mai sus, transcrierea de diarizare a vorbitorului implică tăierea unui fișier de înregistrare audio în segmente mai scurte, cu un singur vorbitor și încorporarea segmentelor de vorbire într-un spațiu care reprezintă caracteristicile unice ale fiecărui vorbitor individual. Apoi, acele segmente sunt grupate și pregătite pentru etichetare.
Când ne gândim la sistemele de diarizare a vorbitorilor, acestea sunt împărțite în „subsisteme” sau sisteme mai mici, care includ următoarele:
Pasul 1: Detectarea vorbirii: Acest pas implică utilizarea tehnologiei pentru a separa vorbirea de zgomotul de fundal din înregistrarea audio.
Pasul 2: Segmentarea vorbirii: Acest pas implică extragerea unor segmente mici dintr-un fișier audio. De obicei, există un segment pentru fiecare vorbitor cu o lungime de aproximativ o secundă.
Pasul 3: Încorporarea extragerii: Acest pas implică plasarea tuturor segmentelor de vorbire încorporate create și colectate în pasul doi, apoi crearea unei rețele neuronale pentru acele segmente. Aceste înglobări pot fi apoi traduse în alte formate și surse de date, cum ar fi text, imagini, documente și așa mai departe. Aceste tipuri diferite de date pot fi apoi utilizate de un model deep learning.
Pasul 4: Clustering: După crearea înglobărilor segmentelor, așa cum am văzut la pasul trei, următorul pas implică gruparea acelor înglobări.
Pasul 5: Etichetarea clusterelor: După crearea clusterelor, acele clustere sunt etichetate, de obicei după numărul de vorbitori.
Pasul 6: Transcriere: În sfârșit, ajungem la pasul de transcriere. Odată ce grupurile sunt create și etichetate corespunzător, sunetul poate fi apoi segmentat în clipuri individuale pentru fiecare vorbitor. Aceste clipuri sunt apoi trimise printr-o aplicație Speech-to-Text sau printr-un sistem de recunoaștere a vorbirii care fac transcrierea.
de George Rusu, Administrator RolaxIT