|

Eusko Jaurlaritzak euskal agente teknologikoei (enpresei, unibertsitateei eta hizkuntza-baliabideak garatzen dituztenei) agindu zien euskarazko ahotsa ezagutu eta sintesia egiteko motoreak garatzeko beharrezko hizkuntza-baliabideak lantzea:
- "25 milioi hitzeko testu-corpusa". Hizkuntzaren erabileraren ahalik eta laginik errealistena osatzen duen testu-multzo egituratua da corpusa. Hizkuntzalari eta informatikari talde batek osatutak ADUR SOFTWARE PRODUCTIONS enpresak landu du hizkuntza-baliabide hori. Corpusa lortzeko hainbat iturritara jo da: aldizkari ofizialetara, argitaletxeetara, aldizkarietara, Internetera, abarretara.
- Oinarrizko lexiko fonetikoa: 60.000 sarrera baino gehiago ditu, eta gehien erabiltzen diren hitzak, laburdurak eta akronimoak eta datu-base akustikoetan bildutako hitzak jasotzen ditu. Hitzen transkripzio fonetikoa gaineratzen da, baita informazio gramatikala ere. ELEKA enpresak landu du lexikoa.
- Telefoniarako datu-base akustikoa: hizkuntza-ereduak sortzeko datuak eskuratzeko telefono bidez egindako grabazioak. Datu-basea Euskal Herriko Unibertsitateko Aholab taldeak landu du.
- ASR3200erako datu-base akustikoa: hizkuntza-ereduak sortzeko datuak eskuratzeko bulego-ingurunean egindako grabazioak. Euskal Herriko Unibertsitateko Zientzia eta Teknologia Fakultateak egin du lan hori.
Hizkuntza-baliabide horiek Eusko Jaurlaritzak kudeatzen ditu.
|