Automatické rozpoznávání řeči a možnosti jejího využití u sluchově postižených
Automatic Recognition of the Speech and Possibilities of Application in Hearing Disorders
Algorithms for artificial speech recognition may be useful in presentation of auditory stimuli by somatosensory stimulation in profoundly or severely deaf people. Recognized text my be presented on special glasses or electrotactile stimulators. Multichannel electrocutaneous or pulsatile stimulation is essential for tactile presentation of recognized characters in sensory substitution through the sense of touch on the trunk. In this pilot study, a system for multichannel electrotactile stimulation is presented for studying carbon electrodes placed on inert flexible membrane. The system utilized an array of 3x8 or 4x8 stimulators, each of them representing one character. Initial testing of electrotactile character presentation was performed in human subject. Efficiency of artificial speech recognition algorithms and speed of character recognition on the trunk allow good understanding of subject matter.The testing results suggested that this promising method may allow speech recognition by deaf people in real time.
Key words:
hearing prosthesis, somatosensory analyzer, automatic speech recognition.
Autoři:
O. Vyšata 1; A. Procházka 2; J. Kukal 2; P. Bečvárovský 3; M. Kučera 4; L. Pazdera 1
Působiště autorů:
Centrum neurologické péče, Rychnov nad Kněžnou
1; Vysoká škola chemicko-technologická, Ústav počítačové a řídicí techniky, Praha
2; VMR s r. o., Praha
3; ORL ambulance, Rychnov nad Kněžnou
4
Vyšlo v časopise:
Otorinolaryngol Foniatr, 56, 2007, No. 3, pp. 144-148.
Kategorie:
Původní práce
Souhrn
Algoritmy pro automatické rozpoznávání řeči mohou umožnit sluchově postiženým s úplnou ztrátou sluchu vnímat informační obsah řeči alternativním způsobem. Zrakového analyzátoru lze využít promítáním rozpoznaných slov do speciálních brýlí. Somatosenzorický analyzátor lze stimulovat pomocí pole elektrod umístěných na trupu. Pilotní studie ukazuje na proveditelnost a relativně dobrou snášenlivost strukturované nízkoprahové elektrické stimulace soustavou uhlíkových koncentrických elektrod napařených na inertní pružnou membránu, event. taktilních či vibračních stimulátorů v matici 3x8, event. 4x8 pro kódování znaků abecedy polohou. Pokrok dosažený při automatickém rozpoznání řeči umožňuje dobré porozumění obsahu sdělení. Dosažené výsledky dávají naději na přenos řeči somatosenzorickou cestou polem stimulátorů umístěných na kůži trupu v reálném čase.
Klíčová slova:
sluchová protéza, somatosenzorický analyzátor, automatické rozpoznávání řeči.
ÚVOD
Kromě moderních metod náhrady sluchu pomocí sluchadel a kochleárního implantátu (1) jsou používány tradiční metody přenosu zrakovou cestou – znakovou řečí nebo u hluchoslepých somatosenzotickou cestou systémem Malossi. Zatímco kochleární implantáty a sluchadla jsou založeny na pokrocích v mikroelektronice a stále se vyvíjejí (2), je pozoruhodné jak málo vývoj sluchových protéz založených na alternativním analyzátoru reflektuje prudký vývoj počítačové techniky, miniaturizace a metod umělé inteligence.
Vývoj algoritmů pro rozpoznávání řeči narážel v minulosti na různou výšku a barvu hlasu, rozdílnou výslovnost, problém extrakce řeči z šumu na pozadí a v češtině i na obrovskou slovní zásobu (díky skloňování a časování asi 20krát větší než např. v angličtině). Praktické využití bylo také limitováno kapacitou dostupných pamětí. Např. slovník pro češtinu pokrývající 99 % slov (cca 500 tis.) v obvyklých textech má velikost 3,5 GB. Limitem pro systémy v reálném čase je také rychlost zpracování informace. Současné systémy umožňují využívat slovníku kolem 150 tis. slov, což stále pokrývá více než 90 % slovních tvarů v běžných textech. Přesnost přepisu informace u českého systému ATT Laboratoře počítačového zpracování řeči TU v Liberci se pohybuje v průměru kolem 80 % (ale např. pro předpověď počasí přes 90 %). Podobných výsledků dosahuje Laboratoř pro zpracování řečového signálu ČVUT. Projekt MUSSLAP oddělení umělé inteligence Katedry kybernetiky Západočeské univerzity v Plzni využívá ke zvýšení efektivity rozpoznávání řeči analýzy neverbální informace snímané kamerou.
K přenosu textové informace lze využít zrakový a/nebo somatosenzotický analyzátor. Miniaturních zařízení pro přenos mnohem komplexnější informace než je prostý text je komerčně využíváno již řadu let. Brýle pro promítání filmů na malý displej v obroučce brýlí s rozlišením 1,44 milionů pixelů jsou v současnosti na trhu v ceně kolem 900 USD. Zkušenosti s podobným japonským výrobkem, který však ponechává jedno oko k orientaci v prostoru ukazují, že lidský mozek je schopen vnímat současně realitu i děj filmu např. při chůzi po ulici. Neměl by tedy být problém se čtením textového výstupu zařízení pro rozpoznávání řeči promítaného stejným způsobem na jedné straně.
Systém Malossi využívající speciální rukavice kóduje abecedu polohou místa stimulace na ruce. Byl vyvinut hluchoslepým italským mechanikem Eugeniem Malossim (1885-1930). Je technologicky poplatný době svého vzniku. Další nevýhodou je využití ruky, kde je sice nejvyšší koncentrace hmatových receptorů, ale ruka je současně potřebná pro většinu běžných činností. Přesto se dosud vývoj některých zařízení zaměřuje na stimulaci kůže konečků prstů a břicha (1) či rtů (5). Za vhodnější místo stimulace považujeme kůži trupu, kde je sice podstatně nižší koncentrace kožních receptorů než na ruce či rtech, je však kompenzována velkou plochou trupu. V článku jsou prezentovány výhody a nevýhody zařízení pro přenos sluchové informace elektrickou stimulací kůže trupu koncentrickými elektrodami a taktilními a vibračními stimulátory. Vzhledem k rozsahu problému, omezení délky článku a zaměření časopisu jsou uváděny výsledky ve stručné podobě.
METODY
- Ke stanovení optimálního rozsahu intenzity a frekvence elektrické stimulace kožních receptorů byl využit proudový stimulátor elektromyografického přístroje s dékou trvání puzsu 0,05 - 1 ms, intenzity 0-100 mA, o frekvenci 5–60 Hz u 5 pokusných osob.
- Ke stanovení optimální vzdálenosti elektrod na trupu bylo využito standardní metody měření diskriminačního čití u 5 pokusných osob.
- Ke stanovení optimálního materiálu stimulační elektrody bylo využito literární rešerše a osobních zkušeností se stimulačními a snímacími elektrodami při měření konduktivních studií, somatosenzorických potenciálů a snímání elektroencefalogramu.
- Ke stanovení optimálního tvaru stimulačních elektrod bylo využito testování čtyř základních typů zapojení v malém elektrodovém poli o 4 elektrodách.
- Ke stanovení nejlepšího způsobu aplikace elektrod na kůži trupu byla porovnána aplikace jednotlivých lepených pozlacených elektrod a napařených uhlíkových koncentrických elektrod na pružné fólii.
- Ke stanovení optimálního způsobu kódování písmen byla stanovena minimální velikost spolehlivě rozpoznatelného znaku taktilní stimulací ostrým předmětem u 5 pokusných osob. Dále byla porovnána efektivnost přenosu kódováním znaků jednotlivě, po slovech a kódování polohou polem koncentrických uhlíkových elektrod napařených na pružné membráně (matici tvoří 60 elektrod ve sloupcích a 40 elektrod v řádcích) (obr. 4), event. lepených elektrod v matici 3-5x8 (obr. 1). Byla porovnána různá uspořádání rozmístění stimulačních míst pro kódování polohou.
VÝSLEDKY
- Z hlediska objemu přenášené informace je výhodné, aby stimulační pulz trval co nejkratší dobu. Tím se zvyšuje maximální možná frekvence stimulace. Vyšší frekvence se však ukázaly jako subjektivně nepříjemné. Za horní hranici dobře tolerovaného frekvenčního rozmezí lze považovat 20-40 Hz. S prodlužující se délkou pulzu klesá maximální tolerovaná intenzita. Proto byla testována délka trvání pulzu 0,05 ms. Tolerovaná intenzita stimulace u 5 pokusných osob byla 0-40 mA při možnosti rozpoznání až 12 úrovní intenzity. V toleranci však jsou velké interindividuální rozdíly, proto se jeví jako výhodnější uživatelské nastavení maximální intenzity.
- Za minimální vzdálenost elektrod na kůži trupu lze na základě měření diskriminačního čití u 5 dobrovolníků považovat 3 cm.
- Alternativy řešení elektrodového pole aplikovaného na kůži lze rozdělit podle:
- použitého materiálu
- tvaru
- způsobu zapojení
- nosiče.
Rozdělení podle použitého materiálu
Kovové elektrody
- zlaté
- stříbrné
- z nerezivějící oceli.
Zlaté elektrody mají výhodu v nízké impedanci, chemické areaktivitě a snadnosti výroby. Nevýhodou je vyšší cena a menší odolnost proti otěru ve srovnání s ostatními.
Stříbrné elektrody mají výhodu v nižší ceně, nevýhodu ve snadné oxidovatelnosti. Oxidované elektrody mají vyšší impedanci. U některých lidí mohou vyvolávat alergii.
Elektrody z nerezavějící oceli mají vyšší impedanci, výhodou je nízká cena a relativní chemická inertnost.
Nejužívanějším typem jsou kovové elektrody s vodivým gelem na rozhraní elektrody a kůže. Gel snižuje impedanci rozhraní kov-kůže. Pro účely trvalé stimulace kůže je jejich použití nevýhodné pro vytváření vodivých můstků mezi blízko uloženými elektrodami, dyskomfort při plošné aplikaci gelu na hrudník a jeho vysychání. Chemické změny (hlavně změny pH) gelu pod elektrodami při dlouhodobé stimulaci (více než 1 hodina) mohou vést k popálení kůže, a to už při intenzitě 40 mA. Při dlouhodobém snímání EEG aktivity je používáno také lepení bentonitovou pastou. Pro účely stimulace kůže trupu elektrodovým polem je tato aplikace pracná, vyžaduje další osobu, odstraňování elektrod je nepříjemné. Při pohybu se elektrody uvolňují a uvolněné elektrody nejsou funkční.
Uhlíkové elektrody
Výhodou je vyšší odolnost proti otěru a nižší impedance než u zlatých elektrod, při zachování požadavku na chemickou inertnost.
Rozdělení podle tvaru a způsobu zapojení
- A) Zapojení proti společné elektrodě - anodě (např. ve vodivém pásku umístěném kolem pasu), kdy stimulační elektrody na trupu jsou katodami (-). Výhodou tohoto řešení je odolnost proti vzniku vodivých můstků mezi katodou a anodou při pocení. Nevýhodou je počet vodičů odpovídající počtu stimulačních elektrod, objemové vedení proudu tělesnými tkáněmi na velkou vzdálenost, což zvyšuje účinky procházejícího proudu na organismus, vyšší impedance a možnost rušivých pocitů v okolí páskové elektrody.
- B) Zapojení mezi dvěma blízkými elektrodami. Zde jsou nejvýhodnějšími tvary elektrody obdélníkové nebo koncentrické (obr. 5). Výhodou zapojení je nižší impedance, protékání proudu pouze na vzdálenost několika milimetrů s minimálním objemem drážděné tělesné tkáně, přesné zacílení stimulu, nevýhodou je možnost vzniku vodivých můstků při pocení a vysoké nároky na elektrickou pevnost dielektrika.
Rozdělení podle nosiče
Elektrody musí být ke kůži přilepené (obr. 1) s nevýhodami uvedenými výše, nebo přidržované v potřebné lokalizaci vhodným nosičem. Ideální by pro tento účel byla membrána umožňující jak napařování elektrod a vodičů tak perspiraci kůže (např. Goretex). Ta může být přidržována ve vhodné poloze další vrstvou elastické tkaniny. Problém perspirace kůže při použití neprodyšné membrány lze částečně řešit perforací membrány. Pracnějším a dražším postupem je připevnění elektrod s vodiči přímo k elastické tkanině. Výhodou je bezproblémová perspirace kůže a dobrý kontrakt elektrod s konvexním povrchem těla. Pro kódování znaků polohou se tento postup jeví jako nejvýhodnější.
Způsoby kódování informace
Jako nejméně výhodné se ukázalo být vytváření současného obrazu v elektrodovém poli 60x40 po několika písmenech tvořících slovo. Rozpoznávání bylo obtížné pro komplexnost obrazu a současnou nutnost kódování jednotlivých písmen malým počtem stimulačních elektrod. U kódovaní slov po jednotlivých písmenech byla úspěšnost rozpoznání při použití dostatečného počtu elektrod stoprocentní, čas potřebný ke správné identifikaci znaku (přibližně 0,5-1 sec.) však neumožňuje přenos informace v reálném čase. Je však pravděpodobné, že by se tento čas zkrátil učením při běžném používání. Za nejrychlejší alternativu lze považovat kódování znaků polohou elektrody. Nevýhodou je však nutnost učení. Testování probíhalo na matici 8x3 (obr. 2). Rozpoznání polohy v tomto uspořádání bylo prakticky okamžité (kolem 0,3 sec.). Otázka, zda by stejně rychle probíhalo po nějaké době učení přiřazování jednotlivým znakům, event. zda by bylo efektivnější ve srovnání s tvarovým kódováním jednotlivých znaků za stejných podmínek, nebyla vyřešena.
DISKUSE
Pilotní studie v zásadě prokázala možnost přenosu řeči v reálném čase pomocí somatosenzorického stimulátoru tvořeného polem koncentrických karbonových elektrod napařených na inertní pružné fólii. Nevyřešeným metodologickým problémem zůstává rychlost rozpoznávání plné množiny znaků české abecedy při kódování polohou v poli elektrod a event. výhodnost oproti tvarovému kódování jednotlivých znaků. Předběžné výsledky však ukazují, že kódování polohou je rychlejší a spolehlivější, zvláště u redukované sady znaků v matici 3x8 (obr. 1, 2, 3). Studie plasticity somatosenzorické kůry u slepců ovládajících Brailovo písmo ukazují velkou schopnost adaptace mozku i u dospělých lidí. Problémem při delším používání zůstává pocení pod nepropustnou fólií (obr. 4), které vede k vytváření můstků mezi anodou a katodou. Mohl by být řešitelný perforací fólie, nebo využitím porézního nosiče elektrod. U některých osob docházelo k podráždění kůže produkty elektrolýzy potu při delší stimulaci. Zlepšení by přinesl porézní nosič umožňující odpařování potu. Aternativním řešením je využití taktilních či vibračních stimulátorů (5) namísto elektrických (obr. 5). Nepotvrdily se obavy z malé elektrické pevnosti použité fólie. K probití fólie nedošlo ani při hodnotách intenzity proudu blízkých 100 mA. Problémem také není trvanlivost a velikost zdroje elektrického proudu, velikost stimulátoru a předpokládáme, že analýzu řeči v reálném čase by zvládlo zařízení velikosti běžného kapesního počítače. Důležitá je volba komponent, protože např. elektromechanická vibrační elektroda má asi 100krát větší příkon než piezoelektrická (4). Vypočtená trvanlivost akumulátoru je kolem 20 hodin nepřetržitého provozu. Cílovou skupinou pro podobná zařízení by zřejmě byli pacienti, u nichž není vhodné použití kochleárního implantátu či sluchadel, případně skupina hluchoslepých. U pacientů se zachovalým zrakem je alternativou promítání textu do jednoho oka pomocí speciálních brýlí, problémem u některých lidí však může být nezvyklý vzhled takového zařízení a adaptace na vnímání různých informací levým a pravým okem.
ZÁVĚR
Dostupné systémy rozpoznávání řeči v reálném čase umožňují dostatečnou přesnost přenosu informace do textové podoby. Pokrok v miniaturizaci elektroniky a současném zvyšování výkonu počítačů při nízkých nárocích na spotřebu elektrického proudu umožňuje , aby zařízení k přenosu této informace prostřednictvím dráždění kožních receptorů elektrickým proudem, vibracemi či taktilními stimuly nezatěžovalo nositele a bez dobíjení vydrželo celý den. Dosažené výsledky dávají naději na přenos řeči somatosenzorickou cestou elektrodovým polem v reálném čase. Netestovanou ale také nadějnou alternativou je promítání generovaného textu do jednoho oka pomocí speciálních brýlí.
Práce vznikla v rámci rozvojového projeku č. MSM 6046137306.
Došlo 26. 3. 2007
MUDr. Oldřich Vyšata
Centrum neurologické péče
Jiráskova 1384
516 01 Rychnov nad Kněžnov
Zdroje
1. Haase, S. J., Kaczmarek K. A.: Electrotactile perception of scatterplots on the fingertips and abdomen. Med. Biol. Eng. Comput., roč. 43, 2005, č. 2, s. 283-239.
2. Hallum, L. E., Dagnelie, G., Suaning, G. J., Lovell, N. H.: Simulating auditory and visual sensorineural prostheses: a comparative review. J. Neural. Eng., roč. 4, 2007, č. 1, s. 58-71.
3. Middlebrooks, J. C., Snyder, R. L.: Auditory prosthesis with a penetrating nerve array. J. Assoc. Res. Otolaryngol, roč. 30, 2007.
4. Perez, C. A., Santibanez, A. J., Holzmann, C. A., Estevez, P.A., Held, C. M.: Power requirements for vibrotactile piezo-electric and electromechanical transducers. Med. Biol. Eng. Comput., roč. 41, 2003, č. 6, s. 718-726.
5. Shim, J. W., Liu, W., Tang, H.: System development for multichannel electrotactile stimulation on the lips. Med. Eng. Phys., roč. 28, 2006, č. 7, s. 734-739.
Štítky
Audiologie a foniatrie Dětská otorinolaryngologie OtorinolaryngologieČlánek vyšel v časopise
Otorinolaryngologie a foniatrie
2007 Číslo 3
Nejčtenější v tomto čísle
- Klinická problematika karcinomů hypofaryngu
- Postkanylační stenózy trachey
- Profiloplastika u operací nosu
- Chirurgické řešení retrakčních kapes u dětí pomocí chrupavčitých štěpů