Completamento automatico dei segni diacritici

Lo sappiamo tutti: per comodità, quando scriviamo e-mail, appunti o altri testi veloci non usiamo i segni diacritici come, per esempio, gli accenti. Capita anche al lavoro che i colleghi ci inviino testi, commenti o proposte senza diacritici. Però quando dal materiale ricevuto dobbiamo poi preparare un testo che sia a posto ortograficamente e stilisticamente, ci tocca il noioso e ingrato lavoro di sistemare apostrofi e accenti al posto giusto. Con il rischio che anche a una terza rilettura possano scappare errori che neanche il correttore automatico riconosce se, per esempio, una parola esiste sia con accento sia senza.

E Lingea risolve questo problema con la proposta dei suoi strumenti linguistici. Offriamo soluzioni su due livelli:

  1. un modulo che per ogni parola scritta liberamente senza diacritici trova la corrispondente parola scritta nel modo corretto;
  2. una soluzione completamente automatica che, sulla base di modelli linguistici statistici, riesce a riscrivere l'intero testo con i suoi diversi accenti.

Lingua

Alla base della soluzione c'è la morfologia della lingua, grazie alla quale riusciamo a trovare la corretta formulazione per ciascuna parola scritta senza accenti diacritici. Le parole corrette potrebbero anche essere più di una: per esempio per la parola vesel potrebbero andar bene vešel, věšel o la stessa prima versione. Se vogliamo che la soluzione sia completamente automatica, occorre aggiungere ancora qualcosa, ovvero il metodo statistico contenuto nel vastissimo corpus di testi scritti in modo corretto. Prendendo in considerazione le parole più vicine o l'intera frase, riusciamo a trovare la variante che più di altre risponde alle necessità del caso. Vogliamo comunque ricordare che ci sono casi che anche la più approfondita delle ricerche non può risolvere. Osservate per esempio questa frase:

Neustale mi tu radi a ja uz jsem z toho cela zoufala.

Qui proprio è impossibile sapere se la persona che parla si sta riferendo a un bambino pestifero, a un consulente o a uno studente di autoscuola particolarmente attivo.

 

Software

La prima parte è molto semplice: si tratta di una funzione che per qualsiasi parola propone le varianti possibili che presentano segni diacritici. Nella sua ricerca utilizza solo il corpus morfologico di una determinata lingua che non superi le dimensioni di 1MB.

La seconda parte richiede una memoria maggiore. Si lavora con un modello linguistico la cui dimensione è dell'ordine di gigabite. Si può partire da un testo in formato html: il modulo lascia tutti i segni del testo html di partenza e completa soltanto quelli mancanti, evidenziando le parole modificate. Potete provare questo strumento alla pagina www.nechybujte.cz