Arxiu de desembre, 2009

Bon Nadal!
i Feliç Any Nou!

// desembre 22nd, 2009 // 3 comentaris » // Personal

2009 està acabant-se, i el Nadal arribant, i enguany encara no havia penjat la felicitació. També tenia ganes de canviar-ne un poc l’estil, així que…

Bon Nadal 2009!

DEA superat!

// desembre 14th, 2009 // 7 comentaris » // Personal, Universitat

Prou de temps després d’haver intentat començar, molt més tard del que esperava, i quasi un any exacte des que vaig començar el meu contracte en el project Sistemes de Codi Obert per a Biblioteques Digitals: Eines Lingüístiques i Educatives, per fi he acabat (amb èxit) el DEA.

D’una cosa totalment diferent a la que pensava que anava a treballar quan vaig començar a estudiar el doctorat (no té res a veure amb la traducció automàtica), el passat dimecres 2 de desembre de 2009, vaig fer la presentació del meu treball de suficiència investigadora Models estadístics per a vocabularis.

En aquest treball he intentat, mitjançant noves propostes i variants a mètodes existents, aconseguir una manera de determinar, amb fiabilitat, la probabilitat de què una paraula siga d’una llengua determinada. Parlant d’una manera més senzilla, diem que una paraula “ens sona” a anglesa, francesa o valenciana per determinades característiques.  Un exemple clar és el de la marca de gelats Häagen Dazs, que es va fer per a que als clients americans els semblara escandinau/germànic, però que realment no significa absolutament res.

Aquesta associació entre un paraula i la llengua a la que pertany som capaços de fer-la de manera intuïtiva, analitzant característiques de les paraules sense adonar-nos-en. Algunes de les característiques poden ser

  • Les lletres que composen les paraules
    • Alfabets diferents: Si té caràcters àrabs/xinesos/hindús direm que la paraula és arab/xinesa/hindú
    • Caràcters “pròpis”: amb ‘ç‘, ‘ñ‘ o ‘õ‘ les paraules ens semblen més valencianes, castellanes o portugueses, respectivament, que angleses.
  • Seqüències de lletres característiques
    • Plurals: en llengües romàniques del bloc occidental (francés, portugués, castellà, català, occità) a més d’altres llengües com l’anglés, els plurals es fan afegint una ‘-s‘, mentre que en llengües romàniques del bloc oriental (italià, romanés o la llengua ja extinta dàlmata).
    • Dígrafs: parelles de caràcters que representen un únic so, una única “lletra” parlada (fonema). Exemples són “-ix-” català o “-sh-” anglés, o “-ch-” castellà i “-tx-” català, etc.
    • Terminacions verbals: les conjugacions dels verbs també indiquen, i molt, a quina llengua podria pertànyer una paraula; així, per exemple, “-ava” és típica del català, “-aba” del castellà, i “-ing” de l’anglés.
    • Altres seqüències frequents: sense necessitat de saber de què es tracta, a nosaltres la terminació “-ght” ens sembla molt anglesa, o la “-eau” molt francesa.
  • Llargària de les paraules:
    • Algunes llengües tenen, de manera habitual, paraules més llargues (com l’alemany o el basc) que el altres (com el català o l’anglés), sobre tot degut a que són llengües aglutinatives.

El que he intentat jo és trobar una bona manera per detectar totes aquestes característiques de manera automàtica, de manera que el sistema siga capaç de decidir amb una certa fiabilitat si una paraula s’adequa a una determinada llengua o no. Existien ja diversos mètodes que feien això (basats en n-grames i en models de Markov d’ordre variable, la majoria), i el meu treball ha consistit en proposar dues noves formes de construir models i comparar-los amb els mètodes existents.

He aconseguit millores de predicció amb els models de Markov dinàmics i amb els models ocults de Markov dinàmics (una nova forma d’inicialitzar els clàssics models de Markov) respecte als models de n-grames i a arbres probabilístics de sufixos, encara que a un cost espacial prou gran (els meus models gasten molta més memòria).

I he aprovat el treball 😀

He de donar les gràcies a molta gent, ja que sense la seva ajuda directa no haguera pogut fer el treball. En primer lloc a Rafa Carrasco, el meu director, ja que les seves idees i propostes són part fonamental del treball. També a Juan Antonio, jefe del grup d’investigació (i membre del tribunal) pels ànims que em va donar des de primera hora per a fer el treball. I també a Felipe, que en les últimes setmanes em va ajudar moltíssim, sobre tot a l’hora de preparar la meva presentació: és gràcies a ell que vaig fer una presentació de la qual vaig eixir molt content. A Miquel, Víctor i Héctor, companys de curro i esmorzar, també els he d’agrair el suport, consells i l’ajuda oferida en tot moment.