Com s'ha construït el diccionari multilingüe lliure

Com sabeu aquests dies hem presentat una versió en proves d'un diccionari multilingüe lliure

La idea de crear un diccionari multilingüe lliure va començar pensant com podríem usar la informació de Wikidata (pensada per màquines principalment) per exposar-la als usuaris d'una forma més útil. Llavors va sorgir la idea de crear un concepte similar al Diccionari de la llengua catalana multilingüe però amb dades lliures.

Com s'ha construït el diccionari

A grans trets el procés és:

1. Usant de font el traductor del projecte lliure Apertium, vam extreure una llista de paraules catalanes. Vam eliminar els cognoms, ja que no són rellevants.

2. Es busca cada paraula catalana a la Wikidata i si hi ha una coincidència es selecciona com a entrada candidata pel diccionari. Ara mateix a Wikidata hi ha 19 milons d'entrades i com a finalització d'aquest procés en seleccionem només 8.125 paraules. En seleccionem per sota del 0.1% de termes.

3. Descartem termes que no són apropiats per a un diccionari general filtrant usant les propietats de Wikidata. Descartem cançons, actors, pel·lícules i altres que poden coincidir amb el nom però no són rellevants per al diccionari.

4. Per a algunes entrades a Wikidata hi ha la referència a una imatge de Wikimedia Commons que il·lustra el concepte descrit. Si existeix, la baixem. Actualment estem important 1.743 imatges, que vol dir que tenim imatge per un 21% del corpus que importem de Wikidata.

5. A Wikidata no existeixen verbs. Llavors, com aquests són part clau d'un diccionari els importem del Viccionari. Ara mateix estem important 2.164 verbs. Importem la traducció a altres llengües i la definició en català de moment.

En total les estadístiques del diccionari multilingüe són: 10266 paraules i 3322 definicions en català, 9668 paraules i 6052 definicions en anglès, 9243 paraules i 3953 definicions en francès, 8419 paraules i 3095 definicions en italià, 7731 paraules i 4428 definicions en alemany, 9794 paraules i 3735 definicions en espanyol, i 1742 imatges.

A Github trobareu el projecte diccionari-multilingue on tenim totes les eines que hem construït per crear aquest diccionari.

Qualitat

La qualitat del diccionari és un tema complex i més en el nostre cas que barregem diferents fonts. Cal tenir en compte diversos aspectes:

  1. Com de rellevant és el corpus seleccionat pel diccionari i les accepcions escollides
  2. Quin és el nombre d'entrades traduïdes en les diferents llengües
  3. Quina és la qualitat de la traducció de les entrades existents en les diferents llengües

En aquest sentit, el primer punt ho solucionarem millorant la selecció del corpus i el filtratge. Està exclusivament relacionat amb com construïm el diccionari. Els dos últims punts els hem començat a millorar contribuint millores a Wikidata i Viccionari.

A mida que Wikidata afegeixi més traduccions en diferents llengües i millori la qualitat de les existents, el diccionari millorarà. Més propietats semàntiques s'afegeixin a cada entrada millor podrem fer el filtratge. Llavors, penso que la qualitat només es pot incrementar en els propers anys.

Tenim previst la importació regular de les fonts lliures i hem començat a desenvolupar un conjunt de proves de regressió per assegurar que cada cop que s'incorporan noves entrades no perdem quelcom important.

Agraïments

A tothom que està darrere dels projectes lliures que han fet possible aquest diccionari. A en Xavi Ivars que ha fet interfície d'usuari amb Drupal.

jordi Sunday 24 January 2016 - 09:48 am | | Default