Traducció de documentació a partir del castellà: cas documentació del GIMP

Traducció automàtica a partir del castellà

El GIMP és un dels programes més baixats que traduim des de Softcatalà i àmpliament usat. Després de més de 10 d'anys de feina només hem arribat a traduir el 48% de la documentació. Què podem fer per donar una empenta que ens permeti finalitzar la documentació?

Fins ara sempre havíem traduït de l'anglès al català amb l'ajuda alguns cops de memòries de traducció. Llavors, vaig pensar perquè no li donem la volta a com estem treballant? I després de bastant rumiar vaig pensar que podríem traduir del castellà al català automàticament trencant alguns tabús. Una mica més de context del projecte GIMP:

  • La traducció de la documentació del GIMP al castellà té una bona qualitat. He col·laborat durant anys amb el projecte i conec la feina dels seus traductors.
  • La traducció automàtica funciona millor quan hi ha força context i textos llargs. La documentació, a diferència, de les interfícies d'usuari tenen molt de context.
  • A la tecnologia lliure de traducció Apertium, que és la que usem, el parell de llengües de millor qualitat és el castellà - català. El francès / català o la resta de parells estan lluny d'aquest nivell de qualitat.

Llavors, vaig preparar una eina que anomeno auto-translate (que és lliure) que fa el següent procés:

  • Agafa un fitxer angles -> català i busca les frases que queden per traduir quina traducció tenen en castellà
  • Les frases en castellà les envia al traductor automàtic Apertium per traduir-les del castellà al català
  • Si hi ha fragments de la frase en anglès, com ara noms d'opcions de menú i similar, que apareixen a la memòria de traducció del GIMP les agafem des d'allà (en comptes de les tradueixi l'Apertium)
  • Finalment, apliquem cerca i reemplaçament d'algunes errades que en el nostre context fa l'Apertium

El fitxer resultant és una traducció catalana que després revisem l'equip de traducció del GIMP. Usant aquest sistema hem vist que un traductor pot post-editar (acabar la traducció) unes 2.500 paraules / hora, que és 8 vegades més ràpid que el que trigaríem traduint de l'anglès al català.

Sacrifiquem qualitat? El nostre objectiu és que no:

  • Usem les memòries per assegurar-nos que hi ha una consistència amb les traduccions del programa.
  • Tenim automatitzat el reemplaçament de mots que l'Apertium tradueix incorrectament pel nostre context.
  • Tenim automatitzat l'anàlisis de totes les traduccions amb LanguageTool i Pology (vegeu informe GIMP)
  • Estem fent una revisió a fons de la terminlogia i esmenant casos d'incoherències i millorant algunes adapatcions. El GIMP té termes força tècnics.
  • Últim i més important, el procés de post edició (revisar la traducció feta per la màquina) el fan persones que coneixen molt bé el projecte i amb experiència en correcció.

Tot això vol dir que a partir d'ara traduirem del castellà? No. Simplement vol dir que quan es donin les condicions adequades i no posem en risc la qualitat ho podem plantejar.

Projecte de traducció de la documentació del GIMP

A part de ser el primer projecte que usem aquest sistema també és el primer projecte on hem decidit pagar als post-editors. Bàsicament perquè pensem que amb una inversió de 3.000 euros podem donar-li una empenta al projecte de documentació per deixar-ho acabat. Després continuarem  les futures actualitzacions des del voluntariat com sempre hem fet. Les dues persones que faran la post edició són en Jaume Ortolà i l'Eulàlia Pagès, col·laboradors habituals de Softcatalà.

Actualment ens queden 148.000 paraules per traduir de la documentació del GIMP 2.10 al català i ens hem donat de marge 3 mesos per acabar-los.

jordi | Sunday 26 February 2017 - 3:37 pm | | Default

Síntesi de la parla en català al client del Traductor de Softcatalà per a l'Android

Hem començat el llançament progressiu (de moment a un 5% d'usuaris) d'una nova versió del client del Traductor de Softcatalà per a l'Android (per cert, el codi és aquí).

La principal novetat d'aquesta versió és que ofereix síntesi de la parla en català.  Fins ara, usàvem el motor de síntesi de Google per l'espanyol, anglès, portuguès i francès. Però malauradament Google no ofereix el català. Llavors, vaig decidir muntar el nostre propi sistema pel català.

Gràcies a la universitat d'Edimburg existeix el sistema de síntesis de veu lliure Festival. I gràcies a la tasca del grup TALP de la UPC les veus en català. Aquesta és la tecnologia que hem usat per oferir la funcionalitat.

El meu primer intent va ser usar Flite-TTS-Engine-for-Android però no me'n vaig sortir després de dedicar-hi tot un dia. Hagués estat molt bé perquè la veu es sintetitza al propi dispositiu sense usar Internet. Finalment, el que vaig decidir és fer un servei web remot que sintetitzés la veu.

Llavors, el que fa el client del traductor per Android és:

  1. Envia el text a sintetitzar al servidor de Softcatalà
  2. Aquest sintetitza usant Festival i la veu femenina d'Ona i converteix a MP3 perquè ocupi el menys possible
  3. El dispositiu Android reprodueix la veu

Per l'usuari tot això és absolutament transparent i no hi ha cap diferència entre usar la síntesis de Google per les altres llengües o la nostra pel català.

jordi | Saturday 21 January 2017 - 6:55 pm | | Default

Nova versió 0.82 en proves del client del Traductor de Softcatalà per a l'Android

Ja tenim llesta la versió 0.82 en proves del client de traducció de l'Android. Us explico una mica els darrers canvis.

Nova funcionalitat

Hem simplificat el disseny eliminant textos i elements no necessaris. Hem migrat a Material Design la qualcosa li dóna un aspecte més modern. Utilitzem una biblioteca que fa que aquest disseny disponible només als darrers Androids funcioni també en versions d'Android antigues.

Hem inclòs l'opció de síntesis de veu què alguns usuaris ho demanaven als comentaris del Google Play. Per fer això usem el motor de síntesis de veu que l'usuari tingui configurat. La varietat de configuracions és gran: l'usuari pot tenir diferents motors de síntesis, alguns idiomes són locals altres requereixen accés a Internet, la qualitat de les veus pot variar significativament, etc. Addicionalment la detecció de llenguatges disponibles va com una castanya (la gent es queixa molt) i per exemple el català el dóna com a disponible en algunes  configuracions de Google quan no hi és. Caldrà anar perfercionant la nostra implementació actual perquè aquesta opció només es mostri a l'usuari quan realment és útil.

Enregistrem amb Google Analytics com l'usuari utilitza l'aplicació  (usa reconeixent de veu, síntesis de parla, quins parells d'idioma, etc). Això ens d'ajudarà a entendre millor com usen els usuaris l'aplicació.

Correcció d'errades

També hem corregit algunes errades importants:

  • Quan tornaves a iniciar l'aplicació no es carregava la selecció de llengua d'origen i destí (i variant valenciana si escau) que l'usuari havia triat.
  • Quan enganxaves texts llargs (p. ex. un fragment llarg d'un article a la capsa del text aquesta creix fins a tapar la traducció. Ara tenim una vista amb desplaçament que permet treballar amb textos llargs.
  • El banner d'anuncis no es centrava correctament quan posaves el mòbil en posició horitzontal ni s'amagava correctament en alguns escenaris.

Podeu accedir a aquesta versió de proves des d'aquí: https://play.google.com/apps/testing/org.softcatala.traductor. Qualsevol comentari o observació és benvinguda.

El codi font és com sempre a GitHub: https://github.com/Softcatala/TraductorSoftcatalaAndroid

jordi | Sunday 16 October 2016 - 08:48 am | | Default