Síntesi de la parla en català al client del Traductor de Softcatalà per a l'Android

Hem començat el llançament progressiu (de moment a un 5% d'usuaris) d'una nova versió del client del Traductor de Softcatalà per a l'Android (per cert, el codi és aquí).

La principal novetat d'aquesta versió és que ofereix síntesi de la parla en català.  Fins ara, usàvem el motor de síntesi de Google per l'espanyol, anglès, portuguès i francès. Però malauradament Google no ofereix el català. Llavors, vaig decidir muntar el nostre propi sistema pel català.

Gràcies a la universitat d'Edimburg existeix el sistema de síntesis de veu lliure Festival. I gràcies a la tasca del grup TALP de la UPC les veus en català. Aquesta és la tecnologia que hem usat per oferir la funcionalitat.

El meu primer intent va ser usar Flite-TTS-Engine-for-Android però no me'n vaig sortir després de dedicar-hi tot un dia. Hagués estat molt bé perquè la veu es sintetitza al propi dispositiu sense usar Internet. Finalment, el que vaig decidir és fer un servei web remot que sintetitzés la veu.

Llavors, el que fa el client del traductor per Android és:

  1. Envia el text a sintetitzar al servidor de Softcatalà
  2. Aquest sintetitza usant Festival i la veu femenina d'Ona i converteix a MP3 perquè ocupi el menys possible
  3. El dispositiu Android reprodueix la veu

Per l'usuari tot això és absolutament transparent i no hi ha cap diferència entre usar la síntesis de Google per les altres llengües o la nostra pel català.

jordi | Saturday 21 January 2017 - 6:55 pm | | Default

Nova versió 0.82 en proves del client del Traductor de Softcatalà per a l'Android

Ja tenim llesta la versió 0.82 en proves del client de traducció de l'Android. Us explico una mica els darrers canvis.

Nova funcionalitat

Hem simplificat el disseny eliminant textos i elements no necessaris. Hem migrat a Material Design la qualcosa li dóna un aspecte més modern. Utilitzem una biblioteca que fa que aquest disseny disponible només als darrers Androids funcioni també en versions d'Android antigues.

Hem inclòs l'opció de síntesis de veu què alguns usuaris ho demanaven als comentaris del Google Play. Per fer això usem el motor de síntesis de veu que l'usuari tingui configurat. La varietat de configuracions és gran: l'usuari pot tenir diferents motors de síntesis, alguns idiomes són locals altres requereixen accés a Internet, la qualitat de les veus pot variar significativament, etc. Addicionalment la detecció de llenguatges disponibles va com una castanya (la gent es queixa molt) i per exemple el català el dóna com a disponible en algunes  configuracions de Google quan no hi és. Caldrà anar perfercionant la nostra implementació actual perquè aquesta opció només es mostri a l'usuari quan realment és útil.

Enregistrem amb Google Analytics com l'usuari utilitza l'aplicació  (usa reconeixent de veu, síntesis de parla, quins parells d'idioma, etc). Això ens d'ajudarà a entendre millor com usen els usuaris l'aplicació.

Correcció d'errades

També hem corregit algunes errades importants:

  • Quan tornaves a iniciar l'aplicació no es carregava la selecció de llengua d'origen i destí (i variant valenciana si escau) que l'usuari havia triat.
  • Quan enganxaves texts llargs (p. ex. un fragment llarg d'un article a la capsa del text aquesta creix fins a tapar la traducció. Ara tenim una vista amb desplaçament que permet treballar amb textos llargs.
  • El banner d'anuncis no es centrava correctament quan posaves el mòbil en posició horitzontal ni s'amagava correctament en alguns escenaris.

Podeu accedir a aquesta versió de proves des d'aquí: https://play.google.com/apps/testing/org.softcatala.traductor. Qualsevol comentari o observació és benvinguda.

El codi font és com sempre a GitHub: https://github.com/Softcatala/TraductorSoftcatalaAndroid

jordi | Sunday 16 October 2016 - 08:48 am | | Default

Com s'ha construït el diccionari multilingüe lliure

Com sabeu aquests dies hem presentat una versió en proves d'un diccionari multilingüe lliure

La idea de crear un diccionari multilingüe lliure va començar pensant com podríem usar la informació de Wikidata (pensada per màquines principalment) per exposar-la als usuaris d'una forma més útil. Llavors va sorgir la idea de crear un concepte similar al Diccionari de la llengua catalana multilingüe però amb dades lliures.

Com s'ha construït el diccionari

A grans trets el procés és:

1. Usant de font el traductor del projecte lliure Apertium, vam extreure una llista de paraules catalanes. Vam eliminar els cognoms, ja que no són rellevants.

2. Es busca cada paraula catalana a la Wikidata i si hi ha una coincidència es selecciona com a entrada candidata pel diccionari. Ara mateix a Wikidata hi ha 19 milons d'entrades i com a finalització d'aquest procés en seleccionem només 8.125 paraules. En seleccionem per sota del 0.1% de termes.

3. Descartem termes que no són apropiats per a un diccionari general filtrant usant les propietats de Wikidata. Descartem cançons, actors, pel·lícules i altres que poden coincidir amb el nom però no són rellevants per al diccionari.

4. Per a algunes entrades a Wikidata hi ha la referència a una imatge de Wikimedia Commons que il·lustra el concepte descrit. Si existeix, la baixem. Actualment estem important 1.743 imatges, que vol dir que tenim imatge per un 21% del corpus que importem de Wikidata.

5. A Wikidata no existeixen verbs. Llavors, com aquests són part clau d'un diccionari els importem del Viccionari. Ara mateix estem important 2.164 verbs. Importem la traducció a altres llengües i la definició en català de moment.

En total les estadístiques del diccionari multilingüe són: 10266 paraules i 3322 definicions en català, 9668 paraules i 6052 definicions en anglès, 9243 paraules i 3953 definicions en francès, 8419 paraules i 3095 definicions en italià, 7731 paraules i 4428 definicions en alemany, 9794 paraules i 3735 definicions en espanyol, i 1742 imatges.

A Github trobareu el projecte diccionari-multilingue on tenim totes les eines que hem construït per crear aquest diccionari.

Qualitat

La qualitat del diccionari és un tema complex i més en el nostre cas que barregem diferents fonts. Cal tenir en compte diversos aspectes:

  1. Com de rellevant és el corpus seleccionat pel diccionari i les accepcions escollides
  2. Quin és el nombre d'entrades traduïdes en les diferents llengües
  3. Quina és la qualitat de la traducció de les entrades existents en les diferents llengües

En aquest sentit, el primer punt ho solucionarem millorant la selecció del corpus i el filtratge. Està exclusivament relacionat amb com construïm el diccionari. Els dos últims punts els hem començat a millorar contribuint millores a Wikidata i Viccionari.

A mida que Wikidata afegeixi més traduccions en diferents llengües i millori la qualitat de les existents, el diccionari millorarà. Més propietats semàntiques s'afegeixin a cada entrada millor podrem fer el filtratge. Llavors, penso que la qualitat només es pot incrementar en els propers anys.

Tenim previst la importació regular de les fonts lliures i hem començat a desenvolupar un conjunt de proves de regressió per assegurar que cada cop que s'incorporan noves entrades no perdem quelcom important.

Agraïments

A tothom que està darrere dels projectes lliures que han fet possible aquest diccionari. A en Xavi Ivars que ha fet interfície d'usuari amb Drupal.

jordi | Sunday 24 January 2016 - 09:48 am | | Default