Recunoașterea vocii

Recunoasterea vocala verifica identitatea pe baza caracteristicilor fizice ale vocii unei persoane, iar capacitatea sa de a reutiliza infrastructura telefonica existenta a facut-o deosebit de atractiva pentru autentificarea in call center si in banking telefonic.

Introducere
Recunoasterea vocala este o tehnologie care permite unui utilizator sa foloseasca propria voce ca dispozitiv de intrare. Recunoasterea vocala poate fi folosita pentru a dicta text catre calculator sau pentru a da comenzi calculatorului (precum deschiderea unor programe, derularea meniurilor sau salvarea documentelor).

Aplicatiile mai vechi de recunoastere vocala necesita ca fiecare cuvant sa fie separat printr-o pauza distincta. Acest lucru permite masinii sa determine unde se termina un cuvant si unde incepe urmatorul. Astfel de aplicatii de recunoastere vocala sunt inca folosite pentru a naviga in sistemul calculatorului si a opera aplicatii precum browsere web sau foi de calcul.

Aplicatiile mai noi de recunoastere vocala permit unui utilizator sa dicteze text fluent catre calculator. Aceste aplicatii mai noi pot recunoaste vorbirea la o viteza de pana la 160 de cuvinte pe minut. Aplicatiile care suporta vorbire continua sunt in general proiectate sa recunoasca textul si sa-l formateze, mai degraba decat sa controleze sistemul calculatorului in sine.

Recunoasterea vocala foloseste o retea neuronala pentru a "invata" sa recunoasca vocea unei persoane. Pe masura ce vorbiti, software-ul de recunoastere vocala isi aminteste modul in care pronuntati fiecare cuvant. Aceasta personalizare permite functionarea recunoasterii vocale chiar daca fiecare persoana vorbeste cu accente si inflexiuni diferite.

Pe langa invatarea modului in care pronuntati cuvintele, recunoasterea vocala foloseste si contextul gramatical si frecventa de utilizare pentru a prezice cuvantul pe care doriti sa il introduceti. Aceste instrumente statistice puternice permit software-ului sa reduca baza de date lingvistica masiva chiar inainte sa rostiti urmatorul cuvant.

Desi acuratetea recunoasterii vocale s-a imbunatatit in ultimii ani, unii utilizatori intampina inca probleme de acuratete, fie din cauza modului in care vorbesc, fie din cauza naturii vocii lor.

Cum functioneaza
Tehnologia de recunoastere vocala foloseste aspectele distinctive ale vocii pentru a verifica identitatea persoanelor. Recunoasterea vocala este uneori confundata cu recunoasterea vorbirii, o tehnologie care traduce ceea ce spune un utilizator (un proces neasociat autentificarii). Tehnologia de recunoastere vocala, in schimb, verifica identitatea persoanei care vorbeste. Cele doua tehnologii sunt adesea combinate — recunoasterea vorbirii este folosita pentru a traduce cuvantul rostit intr-un numar de cont, iar recunoasterea vocala verifica caracteristicile vocale in raport cu cele asociate acelui cont.

Recunoasterea vocala poate folosi orice dispozitiv de captura audio, inclusiv telefoane mobile si fixe si microfoane de PC. Performanta sistemelor de recunoastere vocala poate varia in functie de calitatea semnalului audio, precum si de diferentele dintre dispozitivele de inrolare si cele de verificare, deci achizitia are loc de obicei pe dispozitivul cel mai probabil a fi folosit pentru verificarile viitoare.

In timpul inrolarii, unei persoane i se cere sa selecteze o fraza de acces sau sa repete o secventa de numere. Fraza de acces selectata ar trebui sa aiba aproximativ 1-1,5 secunde — frazele foarte scurte nu contin suficiente date de identificare, iar parolele lungi au prea multe, ambele situatii rezultand intr-o acuratete redusa. Persoanei i se cere in general sa repete fraza de acces sau setul de numere de cateva ori, ceea ce face procesul de inrolare putin mai lung decat pentru majoritatea celorlalte biometrii.

Puncte forte si slabiciuni
Una dintre provocarile implementarilor biometrice la scara mare este necesitatea de a distribui hardware nou catre angajati, clienti si utilizatori. Un punct forte al implementarilor de recunoastere vocala bazate pe telefonie este ca pot evita aceasta problema, in special atunci cand sunt implementate in aplicatii de call center si de acces la cont. Fara hardware suplimentar la capatul utilizatorului, sistemele de recunoastere vocala pot fi instalate ca o subrutina prin care sunt directionate apelurile inainte de a se acorda accesul la informatii sensibile. Capacitatea de a folosi telefoanele existente inseamna ca furnizorii de recunoastere vocala au astazi sute de milioane de dispozitive de autentificare disponibile pentru utilizare tranzactionala.

In mod similar, recunoasterea vocala poate folosi procesele existente de acces la cont si de autentificare, eliminand necesitatea de a introduce scenarii de autentificare greoaie sau confuze. Sistemele telefonice automatizate care folosesc recunoasterea vorbirii sunt astazi omniprezente, datorita economiilor posibile prin reducerea numarului de angajati necesari pentru a opera call center-uri. Recunoasterea vocala si recunoasterea vorbirii pot functiona simultan pe aceeasi rostire, permitand celor doua tehnologii sa se combine fara probleme. Recunoasterea vocala poate functiona ca un mecanism de autentificare de incredere pentru sistemele telefonice automatizate, adaugand securitate tranzactiilor telefonice automatizate in domenii precum serviciile financiare si sanatatea.

Desi contrar perceptiei multor utilizatori, anumite tehnologii de recunoastere vocala sunt foarte rezistente la atacurile de tip impostura — chiar mai mult decat unele sisteme de amprentare. Desi respingerea falsa poate fi o problema comuna, aceasta rezistenta la potriviri false inseamna ca recunoasterea vocala poate fi folosita pentru a proteja tranzactii de valoare relativ ridicata.

Deoarece tehnologia nu a fost folosita in mod traditional in aplicatii de aplicare a legii sau de urmarire, unde ar putea fi perceputa ca o tehnologie de tip "Big Brother", exista mai putina teama publica ca datele de recunoastere vocala ar putea fi urmarite intre baze de date sau folosite pentru a monitoriza comportamentul individual. Astfel, recunoasterea vocala evita in mare masura unul dintre cele mai mari obstacole cu care se confrunta alte tehnologii biometrice: perceptia de invazivitate.

Aplicatii ale recunoasterii vocale
Recunoasterea vocala este o solutie puternica pentru implementari in care interactiunea vocala este deja prezenta. Nu este o solutie puternica atunci cand vorbirea este introdusa ca un proces nou. Telefonia este principala zona de crestere pentru recunoasterea vocala si va ramane probabil de departe cea mai comuna zona de implementare a tehnologiei. Aplicatiile bazate pe telefonie pentru recunoasterea vocala includ accesul la cont pentru servicii financiare, autentificarea clientilor pentru apeluri de serviciu si implementari de tip intrebare-raspuns pentru autentificarea legata de arest la domiciliu si eliberare conditionata. Aceste solutii directioneaza apelantii prin subrutine de inrolare si verificare, folosind hardware si software specifice furnizorului, integrate cu infrastructura existenta a institutiei.

Recunoasterea vocala a fost implementata si in solutii de acces fizic pentru trecerea frontierei, desi acesta nu este mediul ideal de implementare al tehnologiei.

Dimensiunea pietei de recunoastere vocala
Desi veniturile din aceasta tehnologie sunt relativ mici astazi, recunoasterea vocala va genera venituri substantial mai mari pana in 2007. Cel mai probabil sa fie implementata in medii bazate pe telefonie (precum accesul la cont pentru servicii financiare si autentificarea clientilor pentru apeluri de serviciu), veniturile din recunoasterea vocala sunt proiectate sa creasca de la 12,2 milioane USD in 2002 la 142,1 milioane USD in 2007. Veniturile din recunoasterea vocala sunt estimate sa reprezinte aproximativ 4% din intreaga piata biometrica.

Verificarea vocala in banking-ul telefonic
Banking-ul telefonic este tot mai popular in randul clientilor si va deveni tot mai atractiv pentru banci si alte institutii financiare pe masura ce implementeaza tehnologii de recunoastere automata a vorbirii, extrem de eficiente din punct de vedere al costurilor, pentru a gestiona tranzactiile de rutina (subiectul unei alte pagini web despre "viitorul serviciilor financiare").

Dar procedurile de verificare a clientilor prin telefon sunt nesatisfacatoare, atat in privinta confortului clientului, cat si, tot mai mult, din punct de vedere al securitatii.

Problema

Abordarea obisnuita pentru verificarea clientilor — a dovedi ca sunt cine pretind ca sunt — este folosirea unui fel de PIN sau de parola. Pentru a evita ca un client sa fie nevoit sa rosteasca parola cu voce tare, i se cere de obicei sa spuna, de exemplu, a doua si a patra litera din parola.

Exista mai multe probleme cu aceasta abordare:
* In primul rand, parolele si codurile PIN sunt greu de retinut si greoaie pentru ca clientii sa le foloseasca in acest mod.
* In al doilea rand, dureaza — identificarea si verificarea apelantului este adesea cea mai indelungata componenta a unei tranzactii, iar acest lucru se traduce direct in costuri.
* In al treilea rand, securitatea in sine lasa de dorit — multi clienti isi noteaza parolele sau le dezvaluie operatorului (in cazuri extreme pot alege chiar acelasi PIN pe care il folosesc pentru retrageri de la ATM). Multe call center-uri le cer apelantilor informatii "secrete" suplimentare, precum numele de fata al mamei, dar acest lucru nu face decat sa agraveze celelalte doua probleme.

Solutia: verificarea vocala
Exista acum tehnologii care permit ca persoanele sa fie verificate in mod fiabil, rapid si eficient din punct de vedere al costurilor, pe baza caracteristicilor fizice ale vocii lor.

Mai multi furnizori ofera acum tehnologie comerciala de verificare vocala. Un exemplu bun este Nuance Communications, cu sediul in California, care foloseste in esenta aceeasi tehnologie care sta la baza software-ului lor de recunoastere a vorbirii independenta de vorbitor. Dar, in acest caz, recunoasterea depinde de vorbitor — clientul este autorizat sa foloseasca sistemul doar daca amprenta sa vocala individuala se potriveste cu identitatea sa (stabilita in mod normal printr-un numar de cont).

Un client nou se inroleaza automat in sistem prin telefon, repetand aproximativ 10 numere de patru cifre sau citind un scurt fragment de text. Software-ul extrage din aceasta o serie de caracteristici fizice unice acelei voci. In toate tranzactiile ulterioare, apelantului, odata identificat, i se cere sa repete cateva PIN-uri generate aleatoriu sau, de exemplu, nume de orase (acest lucru serveste la prevenirea fraudatorilor care ar inregistra un client rostind parola sau PIN-ul). Daca amprenta vocala se potriveste cu cea stocata pentru numarul de cont, tranzactia continua; daca nu, clientul este directionat catre un supervizor.

Testele-pilot ale tehnologiei sunt incurajatoare. O acuratete ridicata a verificarii corecte poate fi combinata cu o probabilitate scazuta de respingere falsa, ceea ce este potrivit pentru majoritatea operatiunilor bancare, iar intreaga procedura este mai rapida, mai simpla si mult mai eficienta din punct de vedere al costurilor. Surprinzator, sunt necesari doar cativa kilobyti de stocare pentru fiecare amprenta vocala, iar deoarece identitatea pretinsa a clientului este deja stabilita, este necesara o singura comparatie, deci verificarea este destul de rapida (identificarea vocala folosind aceeasi tehnologie este, desigur, mult mai lenta, deoarece sistemul trebuie sa gaseasca o potrivire intre multe amprente vocale).

Verificarea vocala este deosebit de potrivita pentru dialogurile automate de recunoastere a vorbirii, iar o combinatie fara probleme a celor doua tehnologii este de asteptat sa devina rapid norma pentru majoritatea tranzactiilor simple de banking telefonic.

Desigur, verificarea vocala este mult mai putin aplicabila altor canale de livrare, precum banking-ul la sucursala sau sistemele bazate pe ecran (desi au fost construite sisteme-pilot). Pentru o abordare noua si interesanta a verificarii clientilor pe Internet, bazata pe recunoasterea faciala, consultati pagina web despre "viitorul serviciilor financiare" referitoare la Passfaces, sau vizitati site-ul ID-Arts.

Detalii
Caracteristicile specifice fiecarui vorbitor se datoreaza diferentelor in aspectele fiziologice si comportamentale ale sistemului uman de producere a vorbirii. Principalul aspect fiziologic al sistemului uman de producere a vorbirii este forma tractului vocal. Tractul vocal este in general considerat organul de producere a vorbirii situat deasupra corzilor vocale, format din: (i) faringele laringian (sub epiglota), (ii) faringele oral (in spatele limbii, intre epiglota si valul palatin), (iii) cavitatea bucala (in fata valului palatin, marginita de buze, limba si palat), (iv) faringele nazal (deasupra valului palatin, capatul din spate al cavitatii nazale) si (v) cavitatea nazala (deasupra palatului si extinzandu-se de la faringe pana la narine). Zona umbrita din figura 1 arata tractul vocal.


Tractul vocal modifica continutul spectral al unei unde acustice pe masura ce trece prin el, producand astfel vorbirea. De aceea, este obisnuit ca sistemele de verificare a vorbitorului sa foloseasca trasaturi derivate exclusiv din tractul vocal. Pentru a caracteriza trasaturile tractului vocal, mecanismul uman de producere a vorbirii este reprezentat ca un sistem discret in timp, de forma prezentata in figura 2.


Unda acustica este produsa atunci cand fluxul de aer din plamani este purtat prin trahee prin corzile vocale. Aceasta sursa de excitatie poate fi caracterizata drept fonatie, soapta, fricatie, compresie, vibratie sau o combinatie a acestora. Excitatia fonata apare atunci cand fluxul de aer este modulat de corzile vocale. Excitatia soptita este produsa de fluxul de aer care trece printr-o mica deschidere triunghiulara intre cartilajele aritenoide din spatele corzilor vocale aproape inchise. Excitatia prin fricatie este produsa de constrictii in tractul vocal. Excitatia prin compresie rezulta din eliberarea unui tract vocal complet inchis si presurizat. Excitatia prin vibratie este cauzata de aerul fortat printr-o inchidere alta decat corzile vocale, in special la nivelul limbii. Vorbirea produsa prin excitatie fonata se numeste vocala; cea produsa prin excitatie fonata plus fricatie se numeste mixt vocala; iar cea produsa prin alte tipuri de excitatie se numeste nevocala.

Tractul vocal poate fi reprezentat intr-o forma parametrica ca functia de transfer H(z). Pentru a estima parametrii lui H(z) din forma de unda a vorbirii observate, este necesar sa se presupuna o anumita forma pentru H(z). Ideal, functia de transfer ar contine atat poli, cat si zerouri. Totusi, daca sunt folosite doar regiunile vocale ale vorbirii, un model doar-cu-poli pentru H(z) este suficient. Mai mult, analiza de predictie liniara poate estima eficient parametrii unui model doar-cu-poli. Se mai poate observa ca modelul doar-cu-poli este partea de faza minima a modelului real si are un spectru de amplitudine identic, care contine cea mai mare parte a informatiei dependente de vorbitor.

Aceasta subliniaza si natura dependenta de text a modelelor de tract vocal. Deoarece modelul este derivat din vorbirea observata, acesta depinde de vorbirea insasi. Figura 3 ilustreaza diferentele intre modelele a doi vorbitori care rostesc aceeasi vocala.


Alegerea trasaturilor
Trasaturile LPC au fost foarte populare in primele sisteme de recunoastere a vorbirii si de verificare a vorbitorului. Totusi, compararea a doi vectori de trasaturi LPC necesita masuri de similaritate costisitoare din punct de vedere computational, precum distanta Itakura-Saito, ceea ce face trasaturile LPC nepotrivite pentru sistemele in timp real. Furui a sugerat folosirea cepstrumului — definit ca transformata Fourier inversa a logaritmului spectrului de amplitudine — in aplicatiile de recunoastere a vorbirii. Cepstrumul permite calcularea similaritatii dintre doi vectori de trasaturi cepstrale ca o simpla distanta euclidiana. Mai mult, Atal a demonstrat ca cepstrumul derivat din trasaturile LPC produce cea mai buna performanta in ceea ce priveste FAR si FRR pentru un sistem de verificare a vorbitorului. In consecinta, cepstrumul derivat din LPC este folosit pentru sistemul de verificare a vorbitorului descris aici.

Modelarea vorbitorului
Folosind analiza cepstrala descrisa in sectiunea anterioara, o rostire poate fi reprezentata ca o secventa de vectori de trasaturi. Rostirile facute de aceeasi persoana in momente diferite rezulta in secvente de vectori de trasaturi similare, dar diferite. Scopul modelarii vocale este de a construi un model care capteaza aceste variatii in setul de trasaturi extrase. Doua tipuri de modele au fost folosite extensiv in sistemele de verificare a vorbitorului si de recunoastere a vorbirii: modelele stocastice si modelele de tip sablon. Modelul stocastic trateaza procesul de producere a vorbirii ca un proces aleatoriu parametric si presupune ca parametrii procesului stocastic subiacent pot fi estimati intr-un mod precis, bine definit. Modelul de tip sablon incearca sa modeleze procesul de producere a vorbirii intr-un mod neparametric, pastrand un numar de secvente de vectori de trasaturi derivate din mai multe rostiri ale aceluiasi cuvant de catre aceeasi persoana. Modelele de tip sablon au dominat lucrarile timpurii in verificarea vorbitorului si recunoasterea vorbirii, deoarece modelul de tip sablon este intuitiv mai rezonabil. Totusi, lucrarile recente privind modelele stocastice au demonstrat ca aceste modele sunt mai flexibile si permit astfel o modelare mai buna a procesului de producere a vorbirii. Un model stocastic foarte popular pentru procesul de producere a vorbirii este Modelul Markov Ascuns (HMM). Modelele HMM extind modelele Markov conventionale, in sensul ca observatiile sunt o functie probabilistica a starii — adica, modelul este un proces stocastic dublu incorporat, in care procesul stocastic subiacent nu este direct observabil (este ascuns). Modelul HMM poate fi observat doar printr-un alt set de procese stocastice care produc secventa de observatii. Astfel, HMM este o masina cu stari finite, unde o functie de densitate de probabilitate p(x | s_i) este asociata fiecarei stari s_i. Starile sunt conectate printr-o retea de tranzitie, unde probabilitatile de tranzitie intre stari sunt a_{ij} = p(s_i | s_j). Un HMM cu trei stari, complet conectat, este ilustrat in figura 4.

Pentru semnalele de vorbire, un alt tip de HMM, numit model stanga-dreapta sau model Bakis, s-a dovedit a fi mai util. Un model stanga-dreapta are proprietatea ca, pe masura ce timpul creste, indexul starii creste (sau ramane acelasi) — adica starile sistemului evolueaza de la stanga la dreapta. Deoarece proprietatile unui semnal de vorbire se schimba in timp in mod succesiv, acest model este foarte potrivit pentru modelarea procesului de producere a vorbirii.

Potrivirea tiparelor
Procesul de potrivire a tiparelor compara un set dat de vectori de trasaturi de intrare cu modelul vorbitorului pentru identitatea pretinsa si calculeaza un scor de potrivire. Pentru Modelele Markov Ascunse discutate mai sus, scorul de potrivire este probabilitatea ca un set dat de vectori de trasaturi sa fi fost generat de model.

Linkuri externe
Top