SzukajSzukaj
dołącz do nas Facebook Google Linkedin Twitter

Naukowcy Mety opracowują sposoby odczytywania mowy z ludzkich mózgów

Eksperci z ośrodka badawczego koncernu Meta są w trakcie opracowywania metody odczytywania mowy bezpośrednio w fal mózgowych człowieka. Rozwiązanie wspierane sztuczną inteligencją ma pomóc głównie osobom, które na skutek chorób i urazów mają kłopoty z porozumiewaniem się za pomocą tradycyjnych sposobów komunikacji.

Fot. Possessed Photography/Unsplash Fot. Possessed Photography/Unsplash

Jak twierdzą badacze Mety, kiedy ludzie mówią, myślą o tym, jak słowa, które zamierzają uformować za pomocą ust. W rzeczywistości zaś nie trzeba wcale mówić, aby w mózgu uformowały się czynności związane z mową.

Fale mózgowe zamiast słów

Jest to ważne, ponieważ części mózgu, które kontrolują usta i części, które obejmują rozumienie i formowanie języka są oddzielne. Naukowcy z Meta Platform Inc. w Facebook AI Research Labs wykorzystują tę wiedzę wraz ze sztuczną inteligencją, aby dowiedzieć się, jak pomóc osobom, które doznały traumatycznych urazów neurologicznych, w wyniku których nie są w stanie komunikować się za pomocą mowy, pisania na klawiaturze lub gestów.

- Opracowaliśmy model AI, który potrafi dekodować mowę z nieinwazyjnych nagrań aktywności mózgu - wyjaśnia Jean Remi King, naukowiec z FAIR Labs. - Dekodowanie mowy z aktywności mózgu było od dawna celem neuronaukowców i klinicystów, ale większość postępów polegała na inwazyjnych technikach rejestracji mózgu.

Większość ludzi może być zaznajomiona z powszechnymi rodzajami skanów mózgu, takimi jak rezonans magnetyczny, lub MRI, i tomografia komputerowa, lub CT, z których oba wytwarzają szczegółowe obrazy mózgu. Jednak pokazują one raczej struktury niż aktywność. Najlepsze dotychczasowe sposoby na uzyskanie wyraźnej bieżącej aktywności były inwazyjne - co oznacza otwarcie czaszki i umieszczenie elektrod bezpośrednio na samym mózgu.

Czytaj także: Sztuczna Inteligencja pokazała budowę wszystkich znanych nauce białek

Jednak nieinwazyjne techniki, takie jak elektroencefalogram, EEG, i magnetoencefalografii, MEG, może skanować mózg z zewnątrz i oglądać aktywność bez żadnych operacji. Zarówno EEG, jak i MEG mogą wykonywać milisekundowe migawki aktywności umysłu, co czyni je idealnymi do ciągłego podglądu tego, co dzieje się w mózgu danej osoby podczas słuchania muzyki.

Problem w tym, że nie dają one bardzo wyraźnego obrazu tego, co się dzieje, ponieważ nagrania z sesji EEG i MEG mogą być bardzo zaszumione. Chociaż są one przydatne w diagnozowaniu urazów, czyni to je problematycznymi w określaniu konkretnych, zniuansowanych aktywności mózgu, takich jak to, czy dana osoba myśli o wypowiedzeniu np. słowa „kot”.

- Nieinwazyjne nagrania są notorycznie hałaśliwe i mogą znacznie różnić się w różnych sesjach nagraniowych i u poszczególnych osób z wielu powodów, w tym różnic w mózgu każdej osoby i w miejscu umieszczenia czujników - zaznaczył King.

Aby rozwiązać ten problem, badacze FAIR zwrócili się do algorytmów uczenia maszynowego, aby pomóc w „czyszczeniu” szumu. Model, którego użyli, nazywa się wave2vec 2.0, narzędzie open-source AI opracowane przez zespół FAIR w 2020 r., które może być używane do identyfikacji poprawnej mowy z zaszumionego dźwięku.

Następnie badacze zadali narzędziu cztery open-source'owe nagrania EEG i MEG składające się ze 150 godzin 169 zdrowych ochotników słuchających audiobooków i izolowanych zdań po angielsku w języku holenderskim. Nagrania te stały się następnie zestawem treningowym dla modelu wave2vec 2.0, który mógł być wykorzystany do poprawy jego zdolności do wybierania potencjalnych słów, które dana osoba usłyszała.

 - Biorąc pod uwagę wycinek aktywności mózgu, może on określić z dużej puli nowych klipów audio, który z nich dana osoba rzeczywiście usłyszała - tłumaczy King.  - Stamtąd algorytm infiltruje słowa, które dana osoba najprawdopodobniej usłyszała.

Naukowcy uznali to za zachęcające, ponieważ pokazuje, że AI może zostać przeszkolona, aby nauczyć się dekodować hałaśliwe i zmienne nagrania aktywności mózgu z postrzeganej mowy, następnym krokiem jest sprawdzenie, czy można to rozszerzyć na aktywność mózgu bez puli klipów audio. W ten sposób powstałby znacznie bardziej wszechstronny dekoder, który nie potrzebowałby z góry ustalonego słownictwa.

Czytaj także: Brytyjka rozmawiała z żałobnikami na własnym pogrzebie. Pomogła sztuczna inteligencja

Jednak według naukowców jest to jednak dopiero pierwszy krok, ponieważ skupiono się jedynie na dekodowaniu postrzeganej mowy, choć ostatecznym celem badania jest umożliwienie pacjentom komunikacji poprzez poprawę przetwarzania mowy. Może to nawet prowadzić do dalszych postępów technologicznych, takich jak nowe sposoby kontrolowania komputerów tylko poprzez myślenie o słowach lub zadaniach.

Dołącz do dyskusji: Naukowcy Mety opracowują sposoby odczytywania mowy z ludzkich mózgów

0 komentarze
Publikowane komentarze są prywatnymi opiniami użytkowników portalu. Wirtualnemedia.pl nie ponosi odpowiedzialności za treść opinii. Jeżeli którykolwiek z postów na forum łamie dobre obyczaje, zawiadom nas o tym redakcja@wirtualnemedia.pl