|
Felolvasó számítógépek
Kevesen tudják, hogy Magyarország élen jár a világban a
fonetika és a nyelvészet gyakorlati felhasználásában a számítógépes
beszédszintetizálásra. Most azonban a Westel 900-nak a Budapesten
rendezett hatodik EuroSpeech kongresszus alkalmából tett bejelentése a
kutatások eredményeinek széles körben való felhasználásáról szól.
Megkezdődött a Westel 900-nál az e-mailfelolvasó rendszer - munkanéven
levélmondó - kísérleti üzeme, és várhatóan decembertől nyilvános lesz ez
a szolgáltatás.
Nem egyszerű a feladat, eddig csak német és angol nyelven sikerült
eljutni az üzemszerű szolgáltatásig. Ahogy azt a Westel 900 és az
EuroSpeech 99 konferencia közös sajtótájékoztatóján Németh Géza
adjunktus elmondta, a rendszer előfeldolgozással kezdi, kiválasztja a
levél tárgyát és tartalmát, megvizsgálja a kódkészletét, majd, ha
felolvashatónak találja - nem idegen nyelvű a szöveg -, a Morphologic
eljárásával valamit javít a szövegén, visszateszi a hiányzó ékezeteket,
majd felolvassa a levél tartalmát. Kipróbálható volt a kiállításon és a
BNV-n is. A levélmondó érthetően olvas, a prozódiára is ügyel,
magyarosan intonál, és figyelemmel van az írásjelekre.
A Westelnél megvalósuló levélmondó a felolvasó rendszer OMFB által
támogatott fejlesztési munkáinak az első gyakorlati eredménye.
A Budapesti Műszaki Egyetem Távközlési és Telematikai Tanszéke és a
Westel 900 közötti együttműködés kölcsönös előnyök mellett évek óta
tart, hangsúlyozta a sajtótájékoztatón Sugár András vezérigazgató és
Gordos Géza tanszékvezető, az EuroSpeech konferencia elnöke. Az
e-mailfelolvasó rendszer bejelentésének apropót adó EuroSpeech 99
konferencián közel ezer kutató vett részt hétszáznál több előadással és
bemutatóval. A világ sok országában kutatók százai dolgoznak például a
beszélő személyétől független szóértő algoritmusokon, s már akár ötven
dollárért is lehet - a diktáló hangját, beszédstílusát megtanulni képes
- diktálóprogramot kapni PC-re. A szöveggé alakított beszédnek a gép
általi továbbfeldolgozásán is nagy erőkkel dolgoznak ipari és akadémiai
kutatóhelyeken egyaránt. Ha a beszédfeldolgozás hasznát meg akarjuk
világítani, mindig előkerül a nagy álom, amikor én magyarul beszélek a
telefonba, és a másik oldalon japán barátom az én hangomon, de japánul
hallja amit mondok. Ez az, ami a technika mai szintjén elérhetetlen, de
különféle alesetekben vannak gyakorlati eredmények. Sokféle kérdésre,
sokféle feladatra születnek változatos, ilyen-olyan szempontból
elfogadható algoritmusok, de még az angol nyelvű programok is csak a
kötött szöveg - "folyószámla", "betét", "átutalás" - felismerésénél
tartanak. Ilyen megoldást használhatnak bankokban, amikor a gép
kérdéseire néhány szóban érdemben lehet válaszolni.
Az EuroSpeech 99 plenáris előadásainak egyikét az MTA Nyelvészeti
Intézet osztályvezetője, a beszédszintetizálási kutatásokban a kezdet
kezdetétől részt vevő Gósy Mária tartotta. Előadása azonban nem a
technikáról, az algoritmusokról szólt, hanem arról, hogy az ember hol
tart a nyelv, a beszédmegértés megértésében. Sokféle betegség, agyi
sérülés tanulmányozása révén már meglehetős részletességgel leírták
kutatók, hogy az agyunk mely részei a beszédnek, a hallottak
megértésének melyik lépésével hozhatók öszszefüggésbe.
Gósy Mária magyarországi megfigyeléseket elemzett, melyekből sok érdekes
következtetés vonható le. Az egyikből például az, hogy bizonyos
előfeltételek megléte esetén a hallásban, az érzékelésben korlátozottak
a megértésben alig maradnak el átlagos társaiktól. Ugyanakkor 8-13 éves
iskolásokkal végzett kísérletek azt jelzik, hogy a beszédmegértésben
hatalmas különbségek lehetnek a gyermekek között, ami aztán a
felnőttkorra is kihathat. Az eredmények, amelyeket Gósy Mária nagy
sikert aratott előadásában összefoglalt, úgy voltak összeválogatva, hogy
egy nagyon erős, a gépi megértés szempontjából is fontos állítást
alapozzanak meg: azt, hogy a beszéd és a megértés képességét az ember
nem az agy fizikai struktúrájának, hanem az agy magasabb szintű
működésének, funkcionalitásának köszönheti.
A plenáris előadások között számos szekcióban folyt a műhelymunka, a
világ minden tájáról összegyűlt tudósok - zömük harminc évnél fiatalabb
volt - ismerték, vitatták meg egymás ötleteit. A számítógépes
beszédfeldolgozás értelméről, hasznáról és lehetőségeiről kérdeztünk meg
néhányat a kongresszus szervezői, az ez irányú tevékenységek meghatározó
szereplői közül. A nyilatkozatokból is kitűnik, hogy a kutatások
legnagyobb mozgatórugója a gazdasági haszon, a pénz, mint ahogy a
mindennapi életet elérő kézzelfogható eredmények - a társalgó tűzhely és
társai - hatalmas beruházást, pénzt igényelnek.
A Gósy Mária által fellelt megértési különbségek azonos korú gyermekek
között lehetnek kulturális eredetűek, mint ahogy arra Ivan Illich
amerikai szociológus már a hatvanas években felhívta a figyelmet.
Például egy városi aszfalton nőtt gyereknek fel lehet tenni olyan, a
háziállatokkal kapcsolatos kérdést, amit ő csak azért nem ért meg, mert
nem tudja, miről van szó.
Hasonló eset a vidéki gyermek esetében is elképzelhető. Bármi legyen is
azonban az oka a kísérletben vizsgált gyerekek közötti különbségeknek,
az biztos, hogy az információs kor felé közeledve a számítógépes
adatfeldolgozás az információ sűrűségét oly mértékben megnöveli, hogy a
pillanatnyi szituáció felismerése egyre több helyen, egyre több
munkakörben követel a száz év előttinél jóval gyorsabb megértést,
erőteljesebb elvonatkoztatási készséget.
Aki ezeket nem szerzi, nem kapja meg gyermekkorában, annak a munkaereje
csak nagyon rossz áron vagy sehogy sem lesz eladható a világpiacon.
Vagyis ha száz éve, hetven éve fontos volt a tanítás, az iskola, mint
ahogy az volt, akkor ma többszörösen annak kellene lennie ahhoz, hogy
Magyarország feljebb kapaszkodhassék a világgazdasági ranglétrán.
Vargha Márton

|