Nova versió 0.82 en proves del client del Traductor de Softcatalà per a l'Android

Ja tenim llesta la versió 0.82 en proves del client de traducció de l'Android. Us explico una mica els darrers canvis.

Nova funcionalitat

Hem simplificat el disseny eliminant textos i elements no necessaris. Hem migrat a Material Design la qualcosa li dóna un aspecte més modern. Utilitzem una biblioteca que fa que aquest disseny disponible només als darrers Androids funcioni també en versions d'Android antigues.

Hem inclòs l'opció de síntesis de veu què alguns usuaris ho demanaven als comentaris del Google Play. Per fer això usem el motor de síntesis de veu que l'usuari tingui configurat. La varietat de configuracions és gran: l'usuari pot tenir diferents motors de síntesis, alguns idiomes són locals altres requereixen accés a Internet, la qualitat de les veus pot variar significativament, etc. Addicionalment la detecció de llenguatges disponibles va com una castanya (la gent es queixa molt) i per exemple el català el dóna com a disponible en algunes  configuracions de Google quan no hi és. Caldrà anar perfercionant la nostra implementació actual perquè aquesta opció només es mostri a l'usuari quan realment és útil.

Enregistrem amb Google Analytics com l'usuari utilitza l'aplicació  (usa reconeixent de veu, síntesis de parla, quins parells d'idioma, etc). Això ens d'ajudarà a entendre millor com usen els usuaris l'aplicació.

Correcció d'errades

També hem corregit algunes errades importants:

  • Quan tornaves a iniciar l'aplicació no es carregava la selecció de llengua d'origen i destí (i variant valenciana si escau) que l'usuari havia triat.
  • Quan enganxaves texts llargs (p. ex. un fragment llarg d'un article a la capsa del text aquesta creix fins a tapar la traducció. Ara tenim una vista amb desplaçament que permet treballar amb textos llargs.
  • El banner d'anuncis no es centrava correctament quan posaves el mòbil en posició horitzontal ni s'amagava correctament en alguns escenaris.

Podeu accedir a aquesta versió de proves des d'aquí: https://play.google.com/apps/testing/org.softcatala.traductor. Qualsevol comentari o observació és benvinguda.

El codi font és com sempre a GitHub: https://github.com/Softcatala/TraductorSoftcatalaAndroid

jordi | Sunday 16 October 2016 - 08:48 am | | Default

Com s'ha construït el diccionari multilingüe lliure

Com sabeu aquests dies hem presentat una versió en proves d'un diccionari multilingüe lliure

La idea de crear un diccionari multilingüe lliure va començar pensant com podríem usar la informació de Wikidata (pensada per màquines principalment) per exposar-la als usuaris d'una forma més útil. Llavors va sorgir la idea de crear un concepte similar al Diccionari de la llengua catalana multilingüe però amb dades lliures.

Com s'ha construït el diccionari

A grans trets el procés és:

1. Usant de font el traductor del projecte lliure Apertium, vam extreure una llista de paraules catalanes. Vam eliminar els cognoms, ja que no són rellevants.

2. Es busca cada paraula catalana a la Wikidata i si hi ha una coincidència es selecciona com a entrada candidata pel diccionari. Ara mateix a Wikidata hi ha 19 milons d'entrades i com a finalització d'aquest procés en seleccionem només 8.125 paraules. En seleccionem per sota del 0.1% de termes.

3. Descartem termes que no són apropiats per a un diccionari general filtrant usant les propietats de Wikidata. Descartem cançons, actors, pel·lícules i altres que poden coincidir amb el nom però no són rellevants per al diccionari.

4. Per a algunes entrades a Wikidata hi ha la referència a una imatge de Wikimedia Commons que il·lustra el concepte descrit. Si existeix, la baixem. Actualment estem important 1.743 imatges, que vol dir que tenim imatge per un 21% del corpus que importem de Wikidata.

5. A Wikidata no existeixen verbs. Llavors, com aquests són part clau d'un diccionari els importem del Viccionari. Ara mateix estem important 2.164 verbs. Importem la traducció a altres llengües i la definició en català de moment.

En total les estadístiques del diccionari multilingüe són: 10266 paraules i 3322 definicions en català, 9668 paraules i 6052 definicions en anglès, 9243 paraules i 3953 definicions en francès, 8419 paraules i 3095 definicions en italià, 7731 paraules i 4428 definicions en alemany, 9794 paraules i 3735 definicions en espanyol, i 1742 imatges.

A Github trobareu el projecte diccionari-multilingue on tenim totes les eines que hem construït per crear aquest diccionari.

Qualitat

La qualitat del diccionari és un tema complex i més en el nostre cas que barregem diferents fonts. Cal tenir en compte diversos aspectes:

  1. Com de rellevant és el corpus seleccionat pel diccionari i les accepcions escollides
  2. Quin és el nombre d'entrades traduïdes en les diferents llengües
  3. Quina és la qualitat de la traducció de les entrades existents en les diferents llengües

En aquest sentit, el primer punt ho solucionarem millorant la selecció del corpus i el filtratge. Està exclusivament relacionat amb com construïm el diccionari. Els dos últims punts els hem començat a millorar contribuint millores a Wikidata i Viccionari.

A mida que Wikidata afegeixi més traduccions en diferents llengües i millori la qualitat de les existents, el diccionari millorarà. Més propietats semàntiques s'afegeixin a cada entrada millor podrem fer el filtratge. Llavors, penso que la qualitat només es pot incrementar en els propers anys.

Tenim previst la importació regular de les fonts lliures i hem començat a desenvolupar un conjunt de proves de regressió per assegurar que cada cop que s'incorporan noves entrades no perdem quelcom important.

Agraïments

A tothom que està darrere dels projectes lliures que han fet possible aquest diccionari. A en Xavi Ivars que ha fet interfície d'usuari amb Drupal.

jordi | Sunday 24 January 2016 - 09:48 am | | Default

LanguageTool com a servei de correcció per a l'Android

Des de fa alguns mesos he estat treballant en el concepte de crear un servei de correcció per l'Android usant el motor de LanguageTool. L'avantatge de què sigui un servei de correcció és que queda integrat a la majoria d'aplicacions automàticament (Telegram, Whatsapp, Twitter, Facebook, etc).

El mercat d'Android és extremadament fragmentat i el suport de català varia molt depenent del dispositiu/fabricant (veure el recull d'aparells i l'estat del català). Llavors, crear una nova possibilitat per aquells que no tenen correcció és positiu.

El projecte inicial es va encetar sota l'aixopluc de Softcatalà però al veure que podria ser útil per altres llengües he decidit, després de parlar amb la comunitat LanguageTool, ampliar-ne l'abast a totes les llengües que suporta LanguageTool per això que el nom sigui LanguageTool proofreader.

Aspecte

Com escollir en corrector:

Aspecte de la correcció integrada amb el Telegram:

Baixada

Podeu baixar-ho al vostre dispositiu des del Google Play amb l'enllaç de LanguageTool

El codi font està publicat sota llicència lliure a: https://github.com/Softcatala/LanguageToolAndroidService

Incompatibilitats conegudes

Incompatibilitats conegudes:

  • Requereix Android 4.4.4 o superior
  • No funciona amb cap mòbil o tauleta Samsung amb TouchWiz Nature (l'opció i l'API no han estat eliminades)
  • HTC Sense
    • El corrector apareix inhabilitat i no es pot escollir
  • No funciona amb el teclat Swype
  • Wiko 5.02 No desplega be el menú de correcció horitzontalment però si verticalment (sembla problema de la personalització d'Android)

El fet que no funcioni en Samsung i farà que mai sigui una opció majoritària, però com deia al principi de l'apunt, l'important és aportar una opció més.

Ens cal ajuda

Si el proveu tant com si us funciona com sinó feu-me quatre ratlles a jmas@softcatala.org.

jordi | Thursday 31 December 2015 - 6:40 pm | | Default