Model de Good-Turing
De Investigació
Explicació
Quan intentem calcular probabilitats, ens podem trobar amb què tenim paraules o n-grames que no apareixen mai en els corpus d'entrenament (train), però si que ens poden apareixer en els de desenvolupament (dev) o en els de test (test).
És per això que és necessari aplicar un suavitzat a les dades obteses amb train, per a fer-les "flexibles" front a elements desconeguts.
De manera senzilla, podem dir que el Model de Good-Turing afirma que la massa de probabilitat dels elements que no hem vist mai és semblant a la suma de probabilitats dels elements que només s'han vist un cop.
Els casos atípics o estranys poden eixir o no eixir. Si en un experiment hem vist molts d'aquestos casos (elements amb 1 aparació), és probable que en tornem a veure
Exemple
Amb aquest exemple es mostra el resultat d'aplicar Good-Turing.
Imaginem que hem vist un text amb les següents freqüències d'aparicions.
- A -> 8
- B -> 3
- C -> 1
- D -> 2
- E -> 1
En aquest cas, els elements F, G, H,... no els hem vist cap vegada, i per tant la seva probabilitat inicial d'aparició seria 0.
Al aplicar Good-Turing, veiem que tant C com E han aparegut només una vegada (
cada un), el que dona un total de probabilitat de
. Per tant, assignarem una massa de probabilitat de
als elements no vistos.
Després, només ens cal recalcular les probabilitats inicials. Com que hem assignat
per als no vistos, ens queden
per als que si que hem vist, i hem de multiplicar totes les probabilitats inicials per
.
| Element | Observacions | Prob. inicial | Prob. Good-Turing |
|---|---|---|---|
| A | 8 | |
|
| B | 3 | |
|
| C | 1 | |
|
| D | 2 | |
|
| F | 1 | |
|
| G,H,I,... | 0 | |
|

