Saltar al contenido Navegación Ir a buscar

Actualizaciones ocasionales en inglés, mayormente sobre programación, ocasionalmente de fútbol.

Character encodings

Cada día paso más tiempo preocupándome de las particularidades de escribir para la web en castellano/valenciano – en definitiva, cualquier cosa que no sea utf-8 – y tratando de encontrar el modo de despreocuparme de todo esto en el futuro.

Por lo pronto, no estaría de mas anotar los siguientes links de W3C I18N sobre Codificaciones de caracteres, el empleo de HTTP charset con diferentes lenguajes de programación y el tutorial -aún en borrador – Character sets & encodings in XHTML, HTML and CSS entre el montón de cosas interesantes que la gente del W3C pone a nuestra disposición.

Una cosita más: ¿Alguien sabe de algún script de PHP para limpiar el montón de basura que se genera cuando se copia de un documento de Word y se pega en un formulario?. (Si está en Perl o Python también me apaña).

27/04/2004 10:51 AM

  1. Yo utilizo el programa de linea de comandos Tidy (que tiene versión java jTidy). Entre las mil opciones tienes una que limpia los html generados por word. Quiza lo puedas usar, creo que está tambien en forma de librería por lo que puede que haya “binding” para distintos lenguajes. Un saludo.
    Juanjo Navarro    27/04/2004 12:12 PM    #
  2. Gracias por el tip. La próxima versión (5) de PHP incluirá Tidy por defecto. El problema es que no se trata de HTML de Word, sino de teto que se corta de word y se pega en un textarea, a mano, por los editores con que trabajamos; y de paso, se lleva con él todos los caracteres especiales para (em|en)dashes, elipsis y demás basura varia generada automáticamente para el formato.
    kusor    27/04/2004 08:21 PM    #
  3. a mi también me preocupa y voy juntando links... el problema es que tendríamos que hacer un esfuerzo (conjunto? sistémico?) para documentar el soporte en los navegadores. Por ejemplo el draft tutorial ese del w3, si no leí demasiado rápido, sugiere ‘deprecar’ los entities… me parece q lo sugiere muy livianamente (es un draft, lo se).
    manuel    29/04/2004 08:56 PM    #
  4. bufff, llevo buscando eso algun tiempo. lo de las entidades desde word es una putada. si solo quieres un parser de textarea para ver si el usuario ha metido xhtml bien formado, Simon tiene un script PHP que promete.
    Sergi    03/05/2004 02:38 PM    #
  5. creo que queria decir este script
    Sergi    03/05/2004 02:41 PM    #