Com s'ha construït el diccionari multilingüe lliure

Com sabeu aquests dies hem presentat una versió en proves d'un diccionari multilingüe lliure

La idea de crear un diccionari multilingüe lliure va començar pensant com podríem usar la informació de Wikidata (pensada per màquines principalment) per exposar-la als usuaris d'una forma més útil. Llavors va sorgir la idea de crear un concepte similar al Diccionari de la llengua catalana multilingüe però amb dades lliures.

Com s'ha construït el diccionari

A grans trets el procés és:

1. Usant de font el traductor del projecte lliure Apertium, vam extreure una llista de paraules catalanes. Vam eliminar els cognoms, ja que no són rellevants.

2. Es busca cada paraula catalana a la Wikidata i si hi ha una coincidència es selecciona com a entrada candidata pel diccionari. Ara mateix a Wikidata hi ha 19 milons d'entrades i com a finalització d'aquest procés en seleccionem només 8.125 paraules. En seleccionem per sota del 0.1% de termes.

3. Descartem termes que no són apropiats per a un diccionari general filtrant usant les propietats de Wikidata. Descartem cançons, actors, pel·lícules i altres que poden coincidir amb el nom però no són rellevants per al diccionari.

4. Per a algunes entrades a Wikidata hi ha la referència a una imatge de Wikimedia Commons que il·lustra el concepte descrit. Si existeix, la baixem. Actualment estem important 1.743 imatges, que vol dir que tenim imatge per un 21% del corpus que importem de Wikidata.

5. A Wikidata no existeixen verbs. Llavors, com aquests són part clau d'un diccionari els importem del Viccionari. Ara mateix estem important 2.164 verbs. Importem la traducció a altres llengües i la definició en català de moment.

En total les estadístiques del diccionari multilingüe són: 10266 paraules i 3322 definicions en català, 9668 paraules i 6052 definicions en anglès, 9243 paraules i 3953 definicions en francès, 8419 paraules i 3095 definicions en italià, 7731 paraules i 4428 definicions en alemany, 9794 paraules i 3735 definicions en espanyol, i 1742 imatges.

A Github trobareu el projecte diccionari-multilingue on tenim totes les eines que hem construït per crear aquest diccionari.

Qualitat

La qualitat del diccionari és un tema complex i més en el nostre cas que barregem diferents fonts. Cal tenir en compte diversos aspectes:

  1. Com de rellevant és el corpus seleccionat pel diccionari i les accepcions escollides
  2. Quin és el nombre d'entrades traduïdes en les diferents llengües
  3. Quina és la qualitat de la traducció de les entrades existents en les diferents llengües

En aquest sentit, el primer punt ho solucionarem millorant la selecció del corpus i el filtratge. Està exclusivament relacionat amb com construïm el diccionari. Els dos últims punts els hem començat a millorar contribuint millores a Wikidata i Viccionari.

A mida que Wikidata afegeixi més traduccions en diferents llengües i millori la qualitat de les existents, el diccionari millorarà. Més propietats semàntiques s'afegeixin a cada entrada millor podrem fer el filtratge. Llavors, penso que la qualitat només es pot incrementar en els propers anys.

Tenim previst la importació regular de les fonts lliures i hem començat a desenvolupar un conjunt de proves de regressió per assegurar que cada cop que s'incorporan noves entrades no perdem quelcom important.

Agraïments

A tothom que està darrere dels projectes lliures que han fet possible aquest diccionari. A en Xavi Ivars que ha fet interfície d'usuari amb Drupal.

jordi | Sunday 24 January 2016 - 09:48 am | | Default

LanguageTool com a servei de correcció per a l'Android

Des de fa alguns mesos he estat treballant en el concepte de crear un servei de correcció per l'Android usant el motor de LanguageTool. L'avantatge de què sigui un servei de correcció és que queda integrat a la majoria d'aplicacions automàticament (Telegram, Whatsapp, Twitter, Facebook, etc).

El mercat d'Android és extremadament fragmentat i el suport de català varia molt depenent del dispositiu/fabricant (veure el recull d'aparells i l'estat del català). Llavors, crear una nova possibilitat per aquells que no tenen correcció és positiu.

El projecte inicial es va encetar sota l'aixopluc de Softcatalà però al veure que podria ser útil per altres llengües he decidit, després de parlar amb la comunitat LanguageTool, ampliar-ne l'abast a totes les llengües que suporta LanguageTool per això que el nom sigui LanguageTool proofreader.

Aspecte

Com escollir en corrector:

Aspecte de la correcció integrada amb el Telegram:

Baixada

Podeu baixar-ho al vostre dispositiu des del Google Play amb l'enllaç de LanguageTool

El codi font està publicat sota llicència lliure a: https://github.com/Softcatala/LanguageToolAndroidService

Incompatibilitats conegudes

Incompatibilitats conegudes:

  • Requereix Android 4.4.4 o superior
  • No funciona amb cap mòbil o tauleta Samsung amb TouchWiz Nature (l'opció i l'API no han estat eliminades)
  • HTC Sense
    • El corrector apareix inhabilitat i no es pot escollir
  • No funciona amb el teclat Swype
  • Wiko 5.02 No desplega be el menú de correcció horitzontalment però si verticalment (sembla problema de la personalització d'Android)

El fet que no funcioni en Samsung i farà que mai sigui una opció majoritària, però com deia al principi de l'apunt, l'important és aportar una opció més.

Ens cal ajuda

Si el proveu tant com si us funciona com sinó feu-me quatre ratlles a jmas@softcatala.org.

jordi | Thursday 31 December 2015 - 6:40 pm | | Default

Memòries de traducció: informes de qualitat automatitzats

Durant els darrers mesos hem continuat treballant en millorar el servei de memòries de traducció. Ara mateix tenim 82 projectes amb un corpus de 5,1 milions de paraules.

En les darreres setmanes ens hem centrat amb la generació d'informes de qualitat de forma automàtica. L'enfocament actual és:

  • LanguageTool com a motor de correcció ortogràfica i gramatical.
  • Pology per qualsevol cosa que requereixi tenir en compte l'original, principalment terminologia incorrecta i falsos amics.

El LanguageTool té actualment més de 1.800 regles per detectar errors gramaticals, més els errors ortogràfics. Del Pology estem usant les regles de detecció de falsos amics creades per l'equip de KDE fa uns anys.

Podeu veure per exemple l'informe de qualitat pel VLC

Respecte als informes de qualitat és important tenir en compte dos aspectes:

  • El seu contingut és orientatiu i cal que useu el vostre propi criteri alhora d'aplicar les esmenes que considereu adients.
  • Hi ha i continuarà havent-hi falsos positius.
    • Alguns inherents al nostre camp i són inevitables ja que moltes de frases són molt tècniques (frases com noms de fitxers, frases molt curtes amb etiquetes XML, etc). 
    • Altres són falsos positius de les eines que convé anar esmenant. En aquest sentit per exemple he anat recollint possibles errades i millores al LanguageTool perquè en Jaume Ortolà pugui considerar esmenar-les.

Primers exemples d'ús

Hem començat a utilitzar aquests informes per millorar la qualitat d'alguns projectes de traducció, aquí teniu alguns exemples:

  • En Cubells i en Xavi han estat usant aquests informes per enllestir la traducció de la darrera versió del WordPress i el connector de SEO de Yoast (en Xavi parla al seu bloc)
  • Per la meva part he usat els informes per millorar les traduccions al català de l'Inkscape i de totes les aplicacions del GNOME (he introduït més de 250 esmenes).
  • En Robert Antoni Buj ha usat els informes per millorar la qualitat de la darrera versió de la traducció de Fedora.
  • En Josep Ma. Ferrer ha començat a implementar algunes esmenes al projecte KDE. Trigarà un temps ja que hi ha un bon grapat de fitxers.

Aquesta setmana he compartit a les llistes de Fedora i LibreOffice els informes de qualitat.

Com podeu usar aquests informes?

Si participeu en un projecte de traducció és probable que ja estem produint de forma automàtica els informes de qualitat (els generem per 82 projectes). Si encara no ho fem, podeu demanar-los que afegim el vostre projecte i l'inclourem a la pàgina. Podeu comenar a la llista recursos qualsevol experiència que tingueu amb els informes.

jordi | Wednesday 20 May 2015 - 06:20 am | | Default