Se state creando un sistema software per il quale necessitate di una ricerca fulltext, allora vi sarà sicuramente utile il componente che permette di trovare le parole indipendentemente dalla forma in cui sono scritte. Se cercate l'espressione akurzy akcií, allora vi farà sicuramente comodo che il programma ricerchi sia l'espressione vývoj kurzu akcií sia solo akcie. La componente utilizzata quindi serve proprio a fornire queste due utilità:

  • trovare la forma base della parola partendo dalle forme declinate
  • generare tutte le forme partendo dalla forma base

Per forma base della parola (lemma) si intende soprattutto il nominativo singolare, nel nostro caso akcie. Per i verbi, la forma base è quella dell'infinito, per esempio in ceco hledat. Eccezioni fanno alcune lingue come il bulgaro per il quale l'infinito non esiste e come forma base viene intesa quella della prima persona singolare del presente. L'ungherese invece ha l'infinito ma a lemma si trova la forma della terza persona singolare.

Lingua

Alla base delle risoluzioni, come per il correttore automatico, c'è la descrizione morfologica delle parole che viene arricchita anche da altre informazioni. Di seguito le categorie grammaticali in questione: 

  • caso, numero e genere per i sostantivi
  • persona, numero, modo, tempo e forma per i verbi
  • categoria dei pronomi, numerali, avverbi e congiunzioni

Non sembra, ma trovare la forma base di una parola non sempre è facile. Oltre alle forme regolari delle parole si incontrano casi in cui si presenta l'alternanza della radice, e questo per la lingua ceca vale per una lunga serie di parole. Pensiamo per esempio alle coppie mráz-mrazu, stůl-stolu, Bůh-Bohu, brontosaurus-brontosauři, pelyněk-pelyňku, péct-peče, stonat-stůně, o a casi come hnát-ženu, Zeus-Dia, čest-cti ecc., dove il cambiamento riguarda già la prima lettera della parola. Casi simili si possono trovare in tutte le lingue. Anche in una lingua che sembra facile sotto questo punto di vista troviamo, per esempio, alternanze come run-ran, break-broken, o ancora go-went.

Il secondo problema è costituito dall'omonimia. Molte forme lessicali non aiutano a capire quale sia l'effettiva base d'origine. Per esempio la forma ženu può essere derivata sia dalla parola žena (nel qual caso corrisponde alla forma dell'accusativo singolare) sia da hnát (nel qual caso corrisponde alla 1° persona singolare). E la stessa parola hnát può significare tanto il verbo di movimento quanto il sostantivo riferentesi agli arti superiori o inferiori. Ce ne sono tanti di casi simili, per questo non c'è da meravigliarsi quando il programma restituisce più risultati e tutti corretti!

Software

A livello di programmazione la soluzione punta decisamente al risparmio. Sapete quante sono in tutto le forme lessicali che si possono trovare in ceco? Più di  6,7 milioni! E per ognuna dovete anche aggiungere le informazioni sulla morfologia. Il tutto in un file delle dimensioni di 1 MB. Esagerando un po' potremmo dire che tre parole ceche corrispondono a 1 bit.

Funzioni disponibili

  • Restituzione della forma base della parola.
  • Restituzione di tutte le forme morfologicamente vicine a una data parola.
  • Declinazione di tutti i gruppi nominali costituiti da sostantivo e aggetivo, per esempio akciová společnost, akciové společnosti, ..., akciovou společností, akciové společnosti ecc.

Attualmente offriamo supporto per la ricerca fulltext per molte lingue (cfr. tabella) e piattaforme (cfr. sommario). E se volete rendere ancora più completa e utile la vostra ricerca, vi consigliamo di utilizzare un'altra nostra componente - il Thesaurus, ovvero il dizionario dei sinonimi. Per la ricerca su più lingue è possibile anche combinare ulteriormente le nostre teconologie dedicate alla traduzione; per la ricerca all'interno di file audio e video si può contare sulle nostre tecnologie vocali.

Referenze

Provate l'opzione dedicata alla ricerca morfologica approntata per diverse lingue utilizzando le applicazioni Lingea Lexicon. Di fatto viene già utilizzato principalmente nei motori di ricerca di numerosi prodotti o sistemi aziendali.