Canvis al web de Softcatalà per millorar la rellevància en resultats de cerca

Durant el que portem d'any 2014 el 65% de les visites que han arribat a Softcatalà han estat gràcies als resultats de cercadors. Els cercadors han democratitzat Internet: no és important qui siguis sinó el contingut que ofereixis. No hem pagat mai per publicitat i l'única publicitat que hem tingut puntualment ha estat algun bescanvi.

En els últims 6 mesos hem estat treballant en petites millores incrementals al web de Softcatalà. L'objectiu no és augmentar el nombre de visites, sinó aconseguir que quan els usuaris venen a la nostra pàgina a través dels resultats dels cercadors, el contingut que trobin sigui rellevant i de qualitat.

Us comento algunes millores que hem introduït:

  • Robots.txt. Incloure el robots.txt a molts subdominis que tenim per fer proves per tal d'evitar que els cercadors els indexin i aquest contingut competeixi en rellevància al que tenim publicat per a usuaris.  Bing inclús donava a algunes d'aquestes proves més pes que els llocs d'usuari. També hem modificat el robots.txt de Softcatalà per incloure totes les exclusions del MediaWiki. Això fa que els bots dels cercadors no perdin el temps baixant contingut no rellevant (com els històrics de canvis de pàgines, que són brutals) i puguin trobar i indexar més ràpid contingut rellevant (p. ex. quan publiquem una nova notícia).
  • Millorar els títols de pàgines (tenen un pes important en la rellevància del contingut). Hem actualitzat diverses fitxes de programari perquè el nom sigui més rellevant. Per exemple, vam trobar que el corrector gramatical de la UPF tenia més visites que el Language Tool. Això era sorprenent ja que el corrector de la UPF no està actualitzat des de fa anys i no funciona correctament amb les darreres versions d'eines ofimàtiques. Vam millorar el títol de la fitxa del Language Tool perquè inclogués les paraules (corrector gramatical en català). Al cap de pocs dies les baixades van començar a pujar.
  • Consolidació de dominis i subdominis. A Softcatalà disposem d'alguns dominis: softcatala.com, softcatala.cat, softcatala.org i dotzenes de subdominis. Hem configurat redireccions de tots aquests dominis cap softcatala.org que és el domini amb el que treballem. Com a resultat, el valor del contingut d'aquests dominis es consolida en un únic domini augmentant el pes del mateix.
  • Errors de configuració del servidors. Per exemple, en algun moment el domini catalanitzador.cat retornava el contingut d'un altre subdomini incorrectament o bé el domini catalanitzador.softcatala.org mai tornava errors 404 (els cercadors no sabien quan un contingut havia desparegut).
  • Arreglar enllaços trencats. A Softcatalà tenim unes 20.000 pàgines indexades a cercadors que provenen del contingut de les notícies, els fòrums i les pàgines de la Wiki. Les pàgines de la Wiki contenen el contingut més viu i hem arreglat dotzenes d'enllaços trencats a fitxes de programari, projectes, reculls d'enllaços, etc. Molts d'aquests enllaços ja no eren vàlids perquè havien canviat o bé el projecte havia desaparegut. També enllaços trencats que es repetien en plantilles, com ara els de la Tafanera.
  • Eliminar contingut obsolet. Com en el cas anterior, respectant el contingut de fòrums i notícies, hem suprimit dotzenes de pàgines amb contingut obsolet i fragments a altres: projectes despareguts, iniciatives que mai van començar, o informació que ja no és vàlida.
  • Spam. En Vicent fa una feina incansable d'eliminar spam als fòrums que sovint aconsegueixen publicar. A part d'aquesta feina, hem estat eliminant spam antic com ara a comentaris en notícies antigues.

Hem aconseguit millorar el nombre de visites amb aquests canvis? No significativament. Però de nou aquest no era l'objectiu. El que sí hem aconseguit és deixar d'aparèixer com a resultat en cerques en les quals no teníem contingut rellevant, i el més important, aparèixer en millor posició en cerques per les quals si tenim contingut important. Per exemple, "Android en català", "antivirus en català", "linux en català", etc.

Futur

En Toni manté una llista de coses en les quals estem treballant per la Web durant 2014 que entre tots hem anat proposant. Algunes coses importants en l'àmbit de cerca orgànica que farem:

  • Exportar la informació de les fitxes del rebost usant rich spinets. Això és molt important perquè llavors els cercadors poden incloure informació a la pàgina dels resultats com ara la puntuació o la plataforma del programa.
  • Disseny web adaptatiu. Crític per poder adaptar la presentació del web als diferents aparells del mercat (mòbils, tauletes, etc). Quelcom molt important pels usuaris i que els cercadors tenen en compte alhora de mostrar resultats en cerques fetes des de dispositius mòbils.
  • Millorar el rendiment de les pàgines (velocitat de baixada). Google Analytics ens ofereix millores molt clares que hem d'implementar. Google ho té en compte en calcular el rànquing de les pàgines però a més és important per dispositius mòbils.

Com veieu tenim feina per estona. Un lloc web amb el nombre de visites que tenim i el contingut que tenim requereix estar força pendent. Definitivament en els darrers anys ens hem abocat cada cop més en els diferents llocs web que tenim.

jordi | Saturday 12 July 2014 - 4:00 pm | | Default

Novetats a recursos: extracció terminlògica i millores en les memòries de traducció

En els últims mesos he continuat treballant en la automatització de recursos lingüístics de projectes lliures. El que tenim fet té una nova llar: http://www.softcatala.org/recursos/. Es troba en fase de proves.

He continuant treballant en les memòries de traducció. Com a novetats:

  • Es poden cercar cadenes pel terme anglès i català
  • Hem augmentat el nombre de projectes que baixem i processem (un total de 59 projectes)
  • La cerca ignora les tecles de drecera (p. ex.: _Fitxer)

Quan estic traduint, trobo molt útil poder fer cerques a les memòries en 59 projectes per entendre com altres traductors han traduït frases semblants o com en un projecte traduïm cert terme.

La part on he estat treballant més en l'extracció automàtica de terminològica. L'objectiu és deixar de publicar el Recull de Termes i generar-ho de forma automàtica. Tenim ja publicada l'extracció actual per tots els projectes que baixem i pel subconjunt de Softcatalà. He integrat la terminologia oberta del TERMCAT el que ens permet a més indicar quines formes són les recomanades (color verd) pel TERMCAT.

A part de ser un recull de termes, l'extracció automàtica ens està ajudant a detectar errades de traducció i inconsistències terminològiques en diferents projectes que hem anat esmenant.

Si teniu cap suggeriment o comentari us podeu passar per la llista recursos on coordinem el desenvolupament. Tot el codi font el teniu al projecte translation-memory-tools del Github.

jordi | Saturday 03 May 2014 - 1:41 pm | | Default

Entrevista a l'Internauta pels 15 anys de Softcatalà

Ens entrevisten al Xavi Ivars i a mi mateix a l'Internauta pels 15 anys de Softcatalà.

Parlem de l'història de Softcatalà, de com a evolucionat el català aquests anys, i els reptes que té el català les noves tecnologies. Millor l'escolteu :)

jordi | Friday 11 October 2013 - 08:12 am | | Default | No comments