Qualitat de la traducció automàtica del parell anglès -> català i plans per 2020 a Softcatalà

Considero que la traducció automàtica anglès -> català és la més important en una societat on molt del coneixement es genera en llengua anglesa. Durant els darrers dos anys ens hem plantejat a Softcatalà: per què no invertim en la millora de la traducció automàtica anglès -> català. La primera qüestió que es plantejà era: on som en termes de qualitat? i on volem arribar? I cap de les dues qüestions són fàcils de respondre: on som i on volem arribar respecte a quines expectatives? Per exemple, per quins tipus de textos, què vol dir una qualitat acceptable?


Llavors he fet una anàlisi de la qualitat dels traductors disponibles en anglès - català amb els següents objectius:

  • Com es compara la traducció anglès -> català d’Apertium (el traductor que usem i col·laborem des de Softcatalà) respecte a opcions com Google Translator, Yandex, i altres. I en concret hem fet l'anàlisi sobre tres corpus: traducció informàtica (un manual del GNOME), textos informals (Global Voices) i textos de la Wikipedia. 
  • Trobar les mancances més importants del traductor d’Apertium i corregir-les.
  • Intentar entendre que hauríem de fer durant 2020 per millorar el parell de llengües anglès -> català (independentment de la tecnologia, sigui Apertium o una altra).


A Softcatalà els esforços per construir un traductor lliure anglès -> català han anat bàsicament en dues direccions:

  • Contribuir a Apertium en parell anglès -> català. Marc Riera porta des de fa dos anys treballant en millorar el parell. A finals de 2018 vam presentar una millora important en el parell anglès - català. L’Apertium és un sistema de traducció basant en regles i vocabulari i continuem millorant-lo però ens ha faltat tenir més feedback sobre la qualitat.
  • Durant 2018 vam fer proves de concepte entrenant models de xarxes neuronals (Sofcatalà NMT) amb uns resultats molt bons en un context molt concret: traducció de programari informàtic. El resultat va ser la publicació de dos models lliures i els seus corpus. Vam deixar-ho aquí, ja que no disposem de prou corpus lliure per entrenar models per a contextos més genèrics.
 
Taula comparativa de la qualitat del parell anglès -> català amb diferents traductors automàtics
  Corpus GNOME Help   Corpus Global Voices   Corpus Wikimatrix  
  BLEU NIST BLEU NIST BLEU NIST
Apertium 0.16 4.66 0.13 4.93 0.30 7.77
Yandex 0.28 6.00 0.20 5.82 0.37 8.47
Google 0.48 8.00
0.26
6.80 0.46 9.52
Softcatalà NMT (2018) 0.21 4.67 0.02 1.66 0.07 3.58

Tant BLUE com NIST són mètriques que s’utilitzen per avaluar els sistemes de traducció automàtica. Com més alt és el nombre més s'assembla a una traducció de referència.

La conclusió d’aquests resultats és que Google sempre és el millor i que Apertium té els resultats més modestos, en comparació als altres traductors pel parell anglès -> català. Però també hi ha una conclusió molt important, el traductor en xarxes neuronals Softcatalà NMT quan l’usem contra un corpus ben entrenat s’apropa molt a la qualitat d’Apertium, per la qualcosa és una opció a continuar explorant.

Llavors per què continuar treballant amb Apertium o altres tecnologies lliures si Google ho fa tan bé? Nosaltres pensem que és absolutament imprescindible que una tecnologia d’aquesta importància tingui una implementació lliure: tant en el codi com en les dades. Això no només pot estar en mans d’empreses privades. Hem parlat àmpliament d’això en el passat. 

Llavors, quin és el nostre pla a Softcatalà? Ara mateix:

  • Continuar millorant Apertium. Utilitzar aquesta anàlisi i demanar més explícitament ajuda als usuaris perquè comparteixin les traduccions que pensen siguin millorables.  Com mostra l'anàlisi, i com nosaltres mateixos sabem, es pot millorar significativament.
  • Reentrenar el traductor de Softcatalà NMT (neuronal) amb corpus més genèrics, això inclou GlobalVoices, WikiMatrix, Open Food Network. i OpenSubtitles i començar a avaluar els resultats dels nous models.
  • Serà impossible millorar els models neuronals si no disposem de corpus anglès -> català de qualitat lliures alineats. En aquest sentit el nostre punt de partida serà WikiMatrix i demanar ajuda als usuaris per validar-ne la qualitat (aproximadament un 36% del corpus conté errades, basant-nos en una anàlisi manual que hem fet).


És possible que en futur a Softcatalà usem per al parell anglès -> català models neuronals en comptes d’Apertium o que utilitzem un sistema híbrid amb avaluació en temps real. Al final la solució serà la que ens permeti oferir millor qualitat a la nostra comunitat.


Si us interessa la traducció automàtica, saber-ne més o donar un cop de mà, disposem d’un canal de Telegram per coordinar aquests esforços.

jordi | Monday 13 January 2020 - 7:38 pm | | Default

Novetats de la traducció GNOME 3.34 en català

Ja tenim aquí el GNOME 3.34. A part de la feina habitual de mantenir els mòduls traduïts, aquí hi ha un resum d'algunes millores importants:

  • Ja tenim la traducció del navegador Web al dia i com a novetat tota la seva documentació traduïda. El Web és el navegador oficial del GNOME i és el navegador en algunes distribucions com Elementary OS.
  • Continuem millorant la representació de dates en català. Per exemple, al calendari del GNOME els dies eren 01, 02 ara són 1, 2 com correspon. També en l'adaptació dels formats horaris perquè estiguin en format català (com exemples: gnome-system-monitor)
  • Continuem treballant en millorar la documentació perquè sigui molt més fluida la seva lectura i assegurar-nos que els noms de les opcions a que es fan referència en la documentació corresponen exactament a la interfície d'usuari. He fet una petita eina que ho automatitza i hem corregit dotzenes d'errors.
  • En l'ús del dia a dia els traductors troben errades que anem corregint. En aquest cicle unes 20 errades d'aquest tipus s'han corregit. L'última ahir mateix al gcr.
  • També continuem aplicant correccions dels informes d'errors automatitzats que generem. Aquí s'han corregit moltes coses tant en la documentació com en els programes.

Continuem treballant per millor les traduccions del GNOME 3.34.1 que sortirà en pocs dies i és la versió que la majoria de distribucions inclouran i després ja ens hi posem amb la propera versió 3.36.

jordi | Sunday 15 September 2019 - 10:08 am | | Default

Traducció de documentació a partir del castellà: cas documentació del GIMP

Traducció automàtica a partir del castellà

El GIMP és un dels programes més baixats que traduim des de Softcatalà i àmpliament usat. Després de més de 10 d'anys de feina només hem arribat a traduir el 48% de la documentació. Què podem fer per donar una empenta que ens permeti finalitzar la documentació?

Fins ara sempre havíem traduït de l'anglès al català amb l'ajuda alguns cops de memòries de traducció. Llavors, vaig pensar perquè no li donem la volta a com estem treballant? I després de bastant rumiar vaig pensar que podríem traduir del castellà al català automàticament trencant alguns tabús. Una mica més de context del projecte GIMP:

  • La traducció de la documentació del GIMP al castellà té una bona qualitat. He col·laborat durant anys amb el projecte i conec la feina dels seus traductors.
  • La traducció automàtica funciona millor quan hi ha força context i textos llargs. La documentació, a diferència, de les interfícies d'usuari tenen molt de context.
  • A la tecnologia lliure de traducció Apertium, que és la que usem, el parell de llengües de millor qualitat és el castellà - català. El francès / català o la resta de parells estan lluny d'aquest nivell de qualitat.

Llavors, vaig preparar una eina que anomeno auto-translate (que és lliure) que fa el següent procés:

  • Agafa un fitxer angles -> català i busca les frases que queden per traduir quina traducció tenen en castellà
  • Les frases en castellà les envia al traductor automàtic Apertium per traduir-les del castellà al català
  • Si hi ha fragments de la frase en anglès, com ara noms d'opcions de menú i similar, que apareixen a la memòria de traducció del GIMP les agafem des d'allà (en comptes de les tradueixi l'Apertium)
  • Finalment, apliquem cerca i reemplaçament d'algunes errades que en el nostre context fa l'Apertium

El fitxer resultant és una traducció catalana que després revisem l'equip de traducció del GIMP. Usant aquest sistema hem vist que un traductor pot post-editar (acabar la traducció) unes 2.500 paraules / hora, que és 8 vegades més ràpid que el que trigaríem traduint de l'anglès al català.

Sacrifiquem qualitat? El nostre objectiu és que no:

  • Usem les memòries per assegurar-nos que hi ha una consistència amb les traduccions del programa.
  • Tenim automatitzat el reemplaçament de mots que l'Apertium tradueix incorrectament pel nostre context.
  • Tenim automatitzat l'anàlisis de totes les traduccions amb LanguageTool i Pology (vegeu informe GIMP)
  • Estem fent una revisió a fons de la terminlogia i esmenant casos d'incoherències i millorant algunes adapatcions. El GIMP té termes força tècnics.
  • Últim i més important, el procés de post edició (revisar la traducció feta per la màquina) el fan persones que coneixen molt bé el projecte i amb experiència en correcció.

Tot això vol dir que a partir d'ara traduirem del castellà? No. Simplement vol dir que quan es donin les condicions adequades i no posem en risc la qualitat ho podem plantejar.

Projecte de traducció de la documentació del GIMP

A part de ser el primer projecte que usem aquest sistema també és el primer projecte on hem decidit pagar als post-editors. Bàsicament perquè pensem que amb una inversió de 3.000 euros podem donar-li una empenta al projecte de documentació per deixar-ho acabat. Després continuarem  les futures actualitzacions des del voluntariat com sempre hem fet. Les dues persones que faran la post edició són en Jaume Ortolà i l'Eulàlia Pagès, col·laboradors habituals de Softcatalà.

Actualment ens queden 148.000 paraules per traduir de la documentació del GIMP 2.10 al català i ens hem donat de marge 3 mesos per acabar-los.

jordi | Sunday 26 February 2017 - 3:37 pm | | Default