Model de Good-Turing

De Investigació

Dreceres ràpides: navegació, cerca

Explicació

Quan intentem calcular probabilitats, ens podem trobar amb què tenim paraules o n-grames que no apareixen mai en els corpus d'entrenament (train), però si que ens poden apareixer en els de desenvolupament (dev) o en els de test (test).

És per això que és necessari aplicar un suavitzat a les dades obteses amb train, per a fer-les "flexibles" front a elements desconeguts.

De manera senzilla, podem dir que el Model de Good-Turing afirma que la massa de probabilitat dels elements que no hem vist mai és semblant a la suma de probabilitats dels elements que només s'han vist un cop.

Els casos atípics o estranys poden eixir o no eixir. Si en un experiment hem vist molts d'aquestos casos (elements amb 1 aparació), és probable que en tornem a veure

Exemple

Amb aquest exemple es mostra el resultat d'aplicar Good-Turing.

Imaginem que hem vist un text amb les següents freqüències d'aparicions.

  • A -> 8
  • B -> 3
  • C -> 1
  • D -> 2
  • E -> 1

En aquest cas, els elements F, G, H,... no els hem vist cap vegada, i per tant la seva probabilitat inicial d'aparició seria 0.

Al aplicar Good-Turing, veiem que tant C com E han aparegut només una vegada (\frac{1}{15} cada un), el que dona un total de probabilitat de \frac{2}{15}. Per tant, assignarem una massa de probabilitat de \frac{2}{15} als elements no vistos.

Després, només ens cal recalcular les probabilitats inicials. Com que hem assignat \frac{2}{15} per als no vistos, ens queden \frac{13}{15} per als que si que hem vist, i hem de multiplicar totes les probabilitats inicials per \frac{13}{15}.

Element Observacions Prob. inicial Prob. Good-Turing
A 8 \frac{8}{15} \frac{8}{15} * \frac{13}{15}
B 3 \frac{3}{15} \frac{3}{15} * \frac{13}{15}
C 1 \frac{1}{15} \frac{1}{15} * \frac{13}{15}
D 2 \frac{2}{15} \frac{2}{15} * \frac{13}{15}
F 1 \frac{1}{15} \frac{1}{15} * \frac{13}{15}
G,H,I,... 0 \frac{0}{15} \frac{2}{15}


Veure també

Eines de l'usuari