Jelenlegi hely

Intézeti szeminárium

Félév: 
2017/18 I. félév
Helyszín: 
Árpád tér 2. II. em. 220. sz.
Dátum: 
2017-11-07
Időpont: 
14:00-15:00
Előadó: 
Gosztolya Gábor
Cím: 
Lokális és szegmensszintű gépi tanulás kombinálása megfázás beszédhangból történő meghatározására
Absztrakt: 

A számítógépes beszédfeldolgozás területén az utóbbi évtizedben
kapott nagyobb figyelmet az ún. "számítógépes paralingvisztika"
területe, mely a kiejtett szavak helyett a beszédjelből kiolvasható
egyéb információkra (pl. beszélő nemének, korának, hangulatának
meghatározása, egyes fizikai vagy mentális betegségek detektálása
stb.) koncentrál.

Habár mind az automatikus beszédfelismerés (ASR), mind a
paralingvisztika a beszédjelből indul ki, a két részterület mind
célkitűzését, mind technikai megoldásai illetően különbözik. Talán
a legfontosabb ilyen technikai különbség, hogy míg a beszédfelismerés
során a gépi tanulás lokálisan (az ún. "frame"-ek szintjén) történik,
majd a mély neurális hálók kimenetét rejtett Markov-modell
használatával kombináljuk, a paralingvisztikai területen a gépi tanuló
módszerekkel közvetlenül hosszabb beszédszegmenseket (gyakran egész
felvételeket) osztályozunk.

Az előadásban bemutatunk egy olyan algoritmust, amely kombinálja a
két megközelítést: a frame-szinten tanított mély hálók kimeneteiből
szegmensszintű jellemzőket nyerünk ki, és ezek segítségével történik
az egyes felvételek osztályozása. A bemutatott megközelítés
használatával első helyezést értünk el az InterSpeech Computational
Paralinguistic Challenge "Cold" feladatán, ahol a cél annak automatikus
meghatározása volt, hogy a beszélő éppen meg van-e fázva.