Localizarea acustică prin corelarea acumulată

Sursă Originală: http://cecas.clemson.edu/~stb/research/acousticloc/

Stan Birchfield și Daniel Gillmor

Două tehnici tradiționale pentru localizarea acustică sunt formarea fasciculului și estimarea întârzierii în timp. Din punct de vedere istoric, a trebuit să se aleagă între variațiile acestor două tehnici, făcând astfel un compromis între precizia metodelor de formare a fasciculului sau viteza algoritmilor de estimare a întârzierii în timp. În cercetarea noastră am descoperit că acest compromis nu este fundamental pentru problema însăși, ci doar pentru modul în care am privit-o. În realitate, nu este nevoie să sacrificați precizia pentru viteză, cel puțin în scenariile în care distanța dintre microfoane nu este prea mare, cum ar fi când microfoanele se află la câțiva metri distanță într-o cameră interioară.

Am dezvoltat o tehnică numită corelație acumulată care combină viteza de estimare a întârzierii în timp cu acuratețea formării fasciculului. După cum se vede în diagrama de mai jos, ideea este foarte simplă. Semnalele de la perechi de microfoane sunt corelate și întregul vector de corelație este mapat la un sistem comun de coordonate pentru a măsura probabilitatea ca sursa de sunet să se afle în oricare din numeroasele locații candidate. Prefiltrarea și netezirea temporală sunt pași opționali care pot fi adăugați la orice algoritm.

Principiul în centrul celor mai mulți algoritmi de localizare acustică, inclusiv corelația acumulată, este că sunetul emis de o sursă de sunet va avea, în general, o perioadă diferită de timp pentru a ajunge la fiecare microfon din matrice. Prin măsurarea timpului de sosire (sau echivalent, întârziere) a semnalului pentru fiecare microfon, poate fi determinată locația sursei de sunet. Luați în considerare cazul în care există doar o pereche de microfoane, așa cum se arată în figura de mai jos. Sursa de sunet va ajunge la un microfon la momentul t 1 iar celălalt la ora t 2 . Timpul relativ întârziat t = t 1 – t 2poate fi estimată prin selectarea vârfului vectorului de corelație între cele două semnale de microfon. Dacă t este corect estimată, atunci sursa de sunet trebuie să se situeze într-un punct din spațiu astfel încât t 1 – t 2 = t , care definește jumătate dintr-un hiperboloid.

Corelația încrucișată, desigur, nu este o tehnică perfectă și nu există nicio garanție că vârful vecotrului de corelație încrucișată va fi estimarea corectă a întârzierii în timp. Cu semnale reale, vectorul de corelație va conține, de regulă, vârfuri multiple, iar întârzierea reală de timp nu duce deseori la cel mai înalt vârf. Corelația acumulată rezolvă această problemă de zgomot prin păstrarea întregului vector de corelație a fiecărei perechi de microfoane, mai degrabă decât prin selectarea vârfului. Așa cum este arătat mai jos, fiecare element al vectorului de corelație corespondentă corespunde unui alt jumătate hiperboloid în spațiu, iar valoarea acelui element indică probabilitatea ca sursa sonoră să fie localizată pe jumătate hiperboloid. Pentru orice locație candidată, probabilitatea lui — bazată numai pe informațiile de la o singură pereche de microfoane — este dată prin interpolarea valorilor jumătății hiperboloidelor din apropiere. Valorile de la mai multe perechi de microfoane sunt însumate pentru a genera probabilitatea totală pentru acea locație. După luarea în considerare a tuturor informațiilor, locația cu cea mai mare probabilitate este selectată ca estimare pentru locația sursei de sunet. Ca și înainte, se poate aplica preprocesarea și / sau netezirea temporală în plus față de algoritmul de bază descris. atunci locația cu cea mai mare probabilitate este selectată ca estimare pentru locația sursei de sunet. Ca și înainte, se poate aplica preprocesarea și / sau netezirea temporală în plus față de algoritmul de bază descris. atunci locația cu cea mai mare probabilitate este selectată ca estimare pentru locația sursei de sunet. Ca și înainte, se poate aplica preprocesarea și / sau netezirea temporală în plus față de algoritmul de bază descris.

Examinarea ecuațiilor pentru diferitele tehnici relevă o legătură strânsă între ele. Corelația acumulată este o aproximare la formarea fasciculului, presupunând că timpul în care microfoanele recepționează sunetul este o deviere constantă de la momentul în care a fost emis sunetul, ceea ce este aproximativ adevărat în medii izolate cum ar fi o cameră interioară. În același timp, corelația acumulată este o generalizare a formulei de estimare a întârzierii în timp, deoarece ambele împărtășesc un calcul esențial, și anume corelarea fiecărei perechi de semnale de microfon; diferența fiind că corelația acumulată păstrează întregul vector de corelație decât corectitudinea. Ca urmare, corelația acumulată ia în considerare toate informațiile disponibile înainte de a lua o decizie, ceea ce asigură robustețea.principiul celui mai mic angajament , o filozofie binecunoscută pentru dezvoltarea algoritmului. Corelația acumulată este, de asemenea, cunoscută ca o metodă directă deoarece calculează direct rezultatul fără nicio decizie intermediară care are potențialul de a pierde informații.

Similaritatea algoritmilor conduce, în mod natural, la un cadru unificator, așa cum se arată în tabelul de mai jos. Sunt enumerați algoritmii de formare a fasciculului, corelație acumulată și intersecție liniară (o tehnică populară de estimare a întârzierii în timp), împreună cu alte câteva variații. Toate tehnicile pot fi exprimate ca calcul probabilitatea unei locație q folosind ecuația prezentată. Există trei diferențe între algoritmi: (1) modul în care combină informațiile de la mai multe perechi de microfoane, exprimate prin funcția G ; (2) limitele de integrare utilizate pentru compararea semnalelor într-o singură pereche, capturate de funcția T ; și (3) modul în care acestea cântăresc termenul de energie, dat de valoarea a. Din tabel este clar că formarea fasciculului este exactă, estimarea timpului de întârziere este eficientă și corelația acumulată este atât corectă, cât și eficientă.

Corelația cumulată este simplă de implementat, este ordine de mărime mai rapidă decât formarea fasciculului și sa demonstrat că generează rezultate cu aceeași precizie ca cea a formării fasciculului. Mai jos este prezentată funcția de probabilitate calculată pe un cadru de audio cu corelație acumulată și cu formarea fasciculului, ilustrând că diferența dintre rezultate este adesea nesemnificativă. Experimente mai ample, împreună cu o explicație mai detaliată, pot fi găsite în publicațiile de pe acest subiect.

Acumulare corelată
beamforming

Publicații