DEA superat!

// 14 de desembre de 2009 // Personal, Universitat

Prou de temps després d’haver intentat començar, molt més tard del que esperava, i quasi un any exacte des que vaig començar el meu contracte en el project Sistemes de Codi Obert per a Biblioteques Digitals: Eines Lingüístiques i Educatives, per fi he acabat (amb èxit) el DEA.

D’una cosa totalment diferent a la que pensava que anava a treballar quan vaig començar a estudiar el doctorat (no té res a veure amb la traducció automàtica), el passat dimecres 2 de desembre de 2009, vaig fer la presentació del meu treball de suficiència investigadora Models estadístics per a vocabularis.

En aquest treball he intentat, mitjançant noves propostes i variants a mètodes existents, aconseguir una manera de determinar, amb fiabilitat, la probabilitat de què una paraula siga d’una llengua determinada. Parlant d’una manera més senzilla, diem que una paraula “ens sona” a anglesa, francesa o valenciana per determinades característiques.  Un exemple clar és el de la marca de gelats Häagen Dazs, que es va fer per a que als clients americans els semblara escandinau/germànic, però que realment no significa absolutament res.

Aquesta associació entre un paraula i la llengua a la que pertany som capaços de fer-la de manera intuïtiva, analitzant característiques de les paraules sense adonar-nos-en. Algunes de les característiques poden ser

  • Les lletres que composen les paraules
    • Alfabets diferents: Si té caràcters àrabs/xinesos/hindús direm que la paraula és arab/xinesa/hindú
    • Caràcters “pròpis”: amb ‘ç‘, ‘ñ‘ o ‘õ‘ les paraules ens semblen més valencianes, castellanes o portugueses, respectivament, que angleses.
  • Seqüències de lletres característiques
    • Plurals: en llengües romàniques del bloc occidental (francés, portugués, castellà, català, occità) a més d’altres llengües com l’anglés, els plurals es fan afegint una ‘-s‘, mentre que en llengües romàniques del bloc oriental (italià, romanés o la llengua ja extinta dàlmata).
    • Dígrafs: parelles de caràcters que representen un únic so, una única “lletra” parlada (fonema). Exemples són “-ix-” català o “-sh-” anglés, o “-ch-” castellà i “-tx-” català, etc.
    • Terminacions verbals: les conjugacions dels verbs també indiquen, i molt, a quina llengua podria pertànyer una paraula; així, per exemple, “-ava” és típica del català, “-aba” del castellà, i “-ing” de l’anglés.
    • Altres seqüències frequents: sense necessitat de saber de què es tracta, a nosaltres la terminació “-ght” ens sembla molt anglesa, o la “-eau” molt francesa.
  • Llargària de les paraules:
    • Algunes llengües tenen, de manera habitual, paraules més llargues (com l’alemany o el basc) que el altres (com el català o l’anglés), sobre tot degut a que són llengües aglutinatives.

El que he intentat jo és trobar una bona manera per detectar totes aquestes característiques de manera automàtica, de manera que el sistema siga capaç de decidir amb una certa fiabilitat si una paraula s’adequa a una determinada llengua o no. Existien ja diversos mètodes que feien això (basats en n-grames i en models de Markov d’ordre variable, la majoria), i el meu treball ha consistit en proposar dues noves formes de construir models i comparar-los amb els mètodes existents.

He aconseguit millores de predicció amb els models de Markov dinàmics i amb els models ocults de Markov dinàmics (una nova forma d’inicialitzar els clàssics models de Markov) respecte als models de n-grames i a arbres probabilístics de sufixos, encara que a un cost espacial prou gran (els meus models gasten molta més memòria).

I he aprovat el treball 😀

He de donar les gràcies a molta gent, ja que sense la seva ajuda directa no haguera pogut fer el treball. En primer lloc a Rafa Carrasco, el meu director, ja que les seves idees i propostes són part fonamental del treball. També a Juan Antonio, jefe del grup d’investigació (i membre del tribunal) pels ànims que em va donar des de primera hora per a fer el treball. I també a Felipe, que en les últimes setmanes em va ajudar moltíssim, sobre tot a l’hora de preparar la meva presentació: és gràcies a ell que vaig fer una presentació de la qual vaig eixir molt content. A Miquel, Víctor i Héctor, companys de curro i esmorzar, també els he d’agrair el suport, consells i l’ajuda oferida en tot moment.

7 respostes a “DEA superat!”

  1. Joan ha dit:

    Enhorabona!

    Jo tinc una beca en el grup de Reconeixement de Formes i Tecnologia del Llenguatge Humà (http://prhlt.iti.upv.es). Concretament, ara estic fent cosetes sobre reconeixement de text manuscrit.

    El problema que tinc és que he començat molt prompte (estic a 3r) i haig d’anar amb apunts de quint i de Màster per enterar-me de les coses, i clar, vaig boig. Però bueno, poc a poc.

    M’alegre molt d’eixe DEA. Enhorabona 😉

  2. miquelsi ha dit:

    Enhorabona xic!

    Ja veig que t’ho has currat d’allò més, que la cosa no era senzilla, jeje.

    Ara a seguir avant, que vinga el que vinga, segur que serà bo 🙂

  3. Ana ha dit:

    Si al final tot arriba, m’alegre moltíssim de que tot haja anat bé, encara que no me vas deixar anar a la pressentació…però be, demà ens farem uns cubatetes per a celebrar-ho, jejeje.

  4. Xavi Ivars ha dit:

    Gràcies als tres pels comentaris 😀

    Joan, no és que siga el major expert en reconeixement de text (de fet, no he fet mai res :D) però supose que si necessites alguna cosa d’algorismes d’aprenentatge podré tirar-te una maneta 😉

    Ana, que volies? Que et deixara vindre? Jejeje. Demà ho celebrem 😉

  5. Enhorabona! Tindràs unes vacances ben descansades ara!

  6. cpxondo ha dit:

    Xavi! Enhorabona! T’hauràs llevat un pes de damunt increïble.

  7. […] L’agost de 2007 vaig començar la meva relació “laboral” amb la Universitat (tot i que l’any anterior ja havia fet amb el primer curs del doctorat), primer al Taller Digital, després com a becari d’adjudicació directa al DLSI, i després com a tècnic superior als projectes SCABD (espanyol) i IMPACT (europeu), també al DLSI. A més, durant aquest temps, també he obtingut el DEA. […]

    Utilitzant WordPress WordPress 4.7.4.

Deixeu una resposta