sábado, marzo 06, 2010

Después de todo, puede que veamos el Courier este otoño

Hace unos meses os comenté los primeros rumores de la existencia de un interesante dispositivo de Microsoft, el courier. En aquellos tiempos, y a falta de más datos, parecía otra interesante creación de los laboratorios de Microsoft que difícilmente iba a llegar al mercado dadas las resistencias de Microsoft a vender hardware. Sí, la XBOX ha acabado siendo un éxito, pero no se puede decir lo mismo del Zune. Microsoft tiene los suficientes años como que sólo la más clara y directa de las amenazas le hagan reaccionar.

Antes de courier, Microsoft lanzó primero las tecnologías Tablet PC y después el proyecto Origami. Como sabéis los que me seguís desde hace un tiempo, Tablet PC fue el motor original de este blog. En distintas ocasiones (por poner 1 y 2 ejemplos) he analizado las razones del fracaso relativo de Tablet PC (resumiendo, insuficiente comunicación y evangelización y precio excesivo para la diferencia que aporta al usuario, siendo esto culpa de la cortedad de miras de Wacom); por su parte, el proyecto Origami apuntaba muchas de las características del tsunami tablet de este año y los siguientes, y falló inmisericordemente por lo temprano de su lanzamiento, porque los componentes no estaban preparados y porque, como siempre ocurre en un fallo así, el precio era completamente excesivo. Si bien la parte software de tablet PC era completamente funcional y nadie ofrecía nada parecido, Microsoft no intervino en la parte hardware por no hacer la competencia a sus socios, y privó a ambos proyectos del apoyo de alguien de su calibre.

XBOX le enseñó el camino a Microsoft: no tiene por qué elegir entre convertirse en Apple (y ahuyentar a sus socios comerciales) o seguir fabricando sólo software. Google ha demostrado con su nexus que hay una tercera vía perfectamente válida, aportando su marca a un producto para apoyar la visibilidad y el esfuerzo de sus socios. Estamos en el siglo XXI y nuestras guerras no son las de la infancia de la informática personal. Y vistos los fracasos de tablet y origami (relativo y absoluto), parece claro que la mejor forma de dar salida a las estupendas tecnologías e-ink de Microsoft es fabricando las dos partes, hardware y software. Engadget anuncia que el courier definitivamente no es vapor y acabará saliendo a lo largo de este año.

Y aquí viene mi primera duda: la base del origami va a ser Tegra 2 de nVidia. Al no ser x86, va a montar Windows CE 6, Windows Mobile 7 para los amigos. No digo que sea imposible portar las tecnologías e-ink de x86 a ARM, pero tampoco parece una tarea sencilla. En fin, supongo que llevan suficiente tiempo invertido como para haber conseguido unos resultados razonables en este sentido.

ARM para microsoft significa dispositivo, no ordenador. Me da la impresión de que se va a tratar de un dispositivo dedicado, centrado en la información personal, posiblemente en multimedia (para eso tiene potencia sobrada con Tegra2) y en ebooks. Por más que el formato de pantallas oponibles tenga fuertes resonancias de ebooks, si la pantalla es LCD tendrá una seria limitación a la hora de la lectura. En cualquier caso, no olvidemos que Microsoft en 2000 lanzó su reader como aplicación y formato para ebooks, con lo que no es precisamente una recién llegada en nuestro tema.

Los tiros no apuntan a que Windows Mobile 7 vaya a ser tan ampliable y acepte tanto software de terceros como lo hicieron sus venerables antepasados. A eso me refería con dispositivo dedicado (appliance) y no como 'algo parecido a un ordenador portátil'. La verdad, peinando las canas que peino tengo serias resistencias a dispositivos de cualquier tipo que dificulten el cacharreo y la modificación, pero todavía no es seguro que Microsoft haya tomado el paso de Apple en este sentido.

La comparación con iPad es inevitable y, de momento, Microsoft gana. ¿Por qué? Lo que está claro es que el iPad está centrado en el consumo pasivo de contenidos, mientras que tanto la presencia del lápiz como la interfaz que vemos en los videos me hablan a las claras de una concepción mucho más activa, de asistente personal del siglo XXI; o como la están vendiendo, bringing ideas to life. Entre ambas, yo no tengo dudas de cuál se adapta más a mi forma de operar y a mis gustos. Y bueno, ya sabéis que no recibí al iPad con alharacas, precisamente :D. Si hasta van a sacar al Courier con cámara, oiga :D :D :D

Por una parte, me alegraré sinceramente de que las tecnologías e-ink de microsoft, ese esfuerzo de años culminado en un producto maduro, acaben encontrando la forma de llegar a muchas manos. De alguna manera me parecería apropiado y hasta justo. Por otra parte, no deja de fastidiarme que se hayan decidido por ARM para este nuevo intento. Y pese a que eso me habla de precio potencialmente bajo y, por lo tanto, de más posibilidades de éxito, al mismo tiempo cierra la posibilidad (al menos en 2 años, si no más) de integrar una tecnología potencialmente rupturista para un dispositivo personal como el Courier: el dictado de voz.

A día de hoy, el dictado de voz significa x86. Más aún, si se quieren resultados realmente buenos significa últimas generaciones de x86, Core 2 como poco y mejor i5 ó i7. Hablo con pleno conocimiento de causa, soy usuario de Dragon Naturally Speaking a diario y me he convencido de la diferencia que puede aportar para diferentes entornos de uso. Y el dictado de voz sigue siendo una aplicación que demanda muchos recursos, que su resultado depende de la potencia que le des.

Si a este interesante dispositivo, con su lápiz y su innovadora interfaz, se le añadiera voz, el resultado sería definitivamente revolucionario: un dispositivo que nos permitiera trabajar y construir con las manos, con un lápiz (esa interfaz con la que nos educaron y que conduce nuestro pensamiento, sobre todo en la infancia de una idea), y que recibiera el input de texto principal con la voz. No es ninguna locura: si no dispones de teclado, la voz es el mejor canal de input para generar texto, con tal de que la potencia acompañe. Imaginaos las posibilidades: un aparato con el que pensar las ideas con lápiz, con el que desarrollar sus descriptores por viva voz, y que permitiera nuevas posibilidades de comunicación y de uso de software social. Dejadme que me entusiasme y piense en una singularidad, aunque sea pequeñita :)

Si dentro de un año un slate basado en el descendiente de core i3 pudiera recibir input de voz y gracias a tecnologías como optimus y sus desarrollos se alcanzara una autonomía de una jornada laboral, lo preferiría a un dispositivo ARM aún con diferencia de precio (siempre que Microsoft hiciera un esfuerzo como el que hizo con XBOX e impidiera que se volviera a ofrecer a un precio demente). Estamos aún lejos de que algo así llegue al mercado, pero es una pena que la interesantísima interfaz de Courier no se remate con el dictado de voz. Si llegaran a ofrecer algo así, un asistente personal con esa interfaz, tacto, lápiz y dictado de voz, no pasarían muchos meses antes de que iPad pasara a dormir el sueño de los justos.

Os dejo con el último video de la interfaz. Lo que me parece indiscutible es que Microsoft va por el buen camino con esto (siempre que el precio acompañe, que XBOX ya les ha demostrado por dónde tirar):

11 comentarios:

  1. Yo creo que antes de ver dispositivos hardware capaces de procesar voz en tiempo real, tendremos aplicaciones software que capturarán nuestra voz y la enviarán a un servidor que nos devolverá el texto correspondiente (si es que no existe ya).

    Mi predicción: el primero que lo integrará será Google en Adroid.

    ResponderEliminar
  2. a) un pc con windows y dragon naturallyspeaking procesa casi en tiempo real la voz en texto

    b) hay una app. de nuance (dragon naturally speaking) que graba la voz en un iphone (pronto, android), la manda a un servidor y la devuelve como texto. Es un interesante atajo, pero no sustituye al proceso local por los tiempos que manejas (grabar, subir, procesar, bajar)

    microsoft tendría algo que decir si pudiera portar sus librerías de reconocimiento de voz a windows 7 mobile. En ese caso, le daría a su SO una ventaja decisiva.

    ResponderEliminar
  3. Quizás he sido muy genérico en mi descripción. Me refería a pequeños dispositivos hardware con potencia demasiado reducida como para ejecutar el software actual de reconocimiento de voz.

    Tú mismo has dicho que con un ARM es prácticamente imposible. Y si se aumenta la potencia del hardware se incrementa también el precio y nadie compra el aparatito.

    Hasta que se desarrollen procesadores hardware baratos diseñados específicamente para el reconocimiento de voz, la solución software usando un servidor puede ser una buena alternativa. La cantidad de información que hay que transimitir es bastante poca y el servidor sólo tendría que procesar el audio, el resto (corrección mediante diccionario, análisis contextual, etc) se podría hacer en local.
    Si el software es capaz de ir enviando el audio cada pocas palabras podría ser bastante "usable". Habría un retardo comparado con el proceso completo en local, pero sería mucho más rápido que escribir el texto con el stylus.

    ResponderEliminar
  4. Bueno, la verdad es que últimamente ya no tengo tan claro eso de que un dispositivo pasado en ARM no pueda con el dictado de voz. Para empezar, la potencia de estas plataformas se ha disparado en el último año, y va camino de seguir así. Para continuar, no es imposible como yo pensaba portar las librerías de dictado de voz de un sistema de escritorio a un sistema ARM.

    Lo que comentas de un procesador dedicado al dictado de voz es la solución más óptima, desde luego. Quizás ahora nos encontremos en un momento de pescadilla que se muerde la cola, puesto que el pool de usuarios de dictado de voz no parece ser lo suficientemente grande como para que los fabricantes de hardware se arriesguen a invertir la tremenda cantidad que hace falta para desarrollar un VDPU (voice dictation processor unit). Sin embargo, a medio plazo la evolución de la interfaz hombre-máquina está agotada, porque la metáfora de escritorio lleva demasiado tiempo sin renovarse y la interfaz táctil ha sido un buen avance pero que ya demuestra sus límites. Entiendo que hay una posibilidad razonable de que el próximo gran salto en la interfaz hombre-máquina esté protagonizado por la voz

    Y como usuario diario de Dragon NaturallySpeaking tengo que decirte que el lapso de tiempo que podría haber en un modelo cliente-servidor de dictado de voz es sencillamente insufrible de cara a dictar textos de más de, pongamos, 30 palabras. Hasta eso puede ser útil para el usuario de un móvil, pero no se puede pretender hacer un dictado serio si tienes que esperar medio minuto entre que le dicta su párrafo a tu móvil y que recibes de vuelta el párrafo procesado en texto

    ResponderEliminar
  5. Por eso creo que si hay alguien capaz de sacar una aplicación software basada en servidor que funcione, ese alguien es Google.

    Google está investigando este tipo de tecnología. Está desarrollando un sistema que permita la subtitulación automática de los vídeos de YouTube e incluso leí en algún sitio que está trabajando en la traducción en tiempo real de conversaciones telefónicas (aunque me da que eso va a tardar bastante más).

    Las infraestructuras de servidores y de red que tiene Google no son comparables a las de Nuance.

    Si se puede usar Google Maps como navegador GPS, descargándose los mapas de Internet en tiempo real desde la conexión del móvil, esto también debería ser posible.

    Aunque yo no lo haría párrafo a párrafo, claro. Envíos más pequeños y procesado posterior en local puede ser la solución.

    ResponderEliminar
  6. En mi opinión una de las principales ventajas que tendrá el Courier respecto al iPad es la incorporación del lápiz. Para las personas que nos dedicamos a tareas creativas como escribir o (sobretodo) dibujar, el dedo es una herramienta muy ineficiente, es gordo, sucio y grasiento. El dedo no está diseñado para tareas de alta precisión a nivel de punto. Su mayor utilidad está en su uso para pasar páginas, que también incluye Courier.

    Que el iPad no incluya lápiz es un handicap y convierte la aplicación "Brushes", que podría ser muy interesante para los artistas, en poco más que un juguete. Es también una demostración de que es un dispositivo que incita a su uso "pasivo".

    Según se intuye en el vídeo del prototipo de Courier, también incluirá sensibilidad a la presión, si finalmente es así será el sueño de muchos dibujantes (algo así copmo un "moleskine" digital) y un muy buen motivo para decidirse por su compra si tienen a bien conservar un precio razonable.

    ResponderEliminar
  7. Así, hay noticias de que Google está trabajando en esto y, efectivamente, serían uno de los pocos para los que un proyecto tan enorme como este es viable y atractivo. En cualquier caso, no se soluciona el problema que te comento: si ya de por sí para un cliente local y con buena capacidad de cálculo pasan unos segundos entre lo que estás dictando y lo que aparece en pantalla, aquí tendrías que sumar la captura, el procesamiento del sonido, el tiempo que pudieras tardar en enviarlo a los servidores (y serían archivos de cierto peso, en tanto que el reconocimiento de voz necesita calidad del sonido), el procesamiento del texto de estos archivos (que no puede ser instantáneo). El envío de vuelta del texto sería lo más rápido, claro.

    El problema que plantea todo este lapso de tiempo adicional es que dificulta de manera decisiva la interacción entre el usuario y el servicio. Sólo recientemente la calidad del sopor local de dictado de voz lo ha convertido en un servicio realmente viable y que marca una diferencia respecto a lo que existía anteriormente e incluso respecto a la interacción por medio del teclado. Pero lo que más han tenido que trabajar y luchar ha sido por reducir el lapso existente entre el dictado y su conversión a texto. Esto es más importante aún si cabe que la precisión en el dictado, porque cuanto menor es el lapso menor esfuerzo de memoria y tensión se está pidiendo al usuario

    Pasar a un esquema de cliente-servidor remoto se haría retroceder muchos años en el dictado de voz en lo que al lapso se refiere. Todo sea que me equivoque (y probablemente me faltan bastantes datos) pero este esquema me parece que es una vía muerta

    ResponderEliminar
  8. Antonio, tienes toda la razón. Yo creo que sea sobrevalorado la importancia de la interfaz táctil, del multisobo como yo le llamo en referencia al iPad, y se ha olvidado demasiado deprisa las posibilidades que ofrece un lápiz con una matriz activa, como llevan demostrando desde hace cinco años los tablet pc. Si además se combina el uso del dedo con el uso del lápiz, el salto de interfaz es muy considerable

    Como dices, la síntesis de la diferencia entre el iPad y el Courier está en la concepción pasiva del primero vs. la concepción activa del segundo. Por más que no todos seamos artistas (yo no lo soy), me cuesta mucho imaginarme a gusto al sería notificado con un consumidor pasivo de contenidos. Quien más y quien menos puede tener el gusto por generar, por desarrollar, por crear el tipo de contenidos o de ideas que sea. Y me parece evidente que el iPad ni lo facilita ni, directamente, está pensado para algo así. Realmente, para lo que está pensado es para facilitar al máximo que los proveedores de contenidos le vendan sus productos a sus usuarios

    Microsoft tiene el músculo y la reserva suficientes como para poder hacer una puesta como la que ha hecho con la XBOX 360 y ofrecerlo a precio realmente reducido para ganar cuota de mercado. El problema que tenemos realmente si Microsoft va a tomar la decisión revolucionaria de dar un salto así y apostar por este tipo de productos en el mercado. Lo mismo exagero, pero me parece que sería parte de la política de salvación de la empresa... si pensamos a medio y largo plazo

    ResponderEliminar
  9. Hay un pequeño error en tu planteamiento. Lo único que hay que sumar a la solución cliente-servidor respecto de la local es el envío del audio y la recepción del texto.

    La captura y el procesamiento del audio hay que hacerlos en ambos casos. La captura habría que hacerla en local (por narices), pero el procesamiento (o, al menos, la mayor parte de él) se haría en el servidor.

    El asunto es, ¿el tiempo que te puedes ahorrar usando servidores (y, posiblemente, también hardware) dedicados para procesar el audio (lo más costoso del proceso) podría llegar a compensar el que pierdes en comunicaciones?

    ResponderEliminar
  10. Tengo que profundizar en el tema, pero en parte tienes toda la razón. Digo en parte, porque el procesamiento del sonido en un cliente exclusivamente local es parte del propio proceso y no un elemento tan separado como lo sería en un esquema cliente-servidor.

    Tengo previsto crear una serie de post respecto al tema del dictado de voz. En uno de ellos voy a colgar un video del dictado de voz en tiempo real con software de última generación. Ahí se podrá ver el lapso de tiempo que tiene lugar al dictar cada frase y cada párrafo.

    Hay un tema adicional y es el del entrenamiento del cliente. Esta adaptación del software a los matices de voz de cada usuario permite rebajar drásticamente el lapso entre la voz y su procesamiento, y hacer otro tanto con la precisión de dicho procesamiento. Por más que evidentemente los servidores remotos pudieran tener una potencia muy superior a la de un cliente local, no dispondrían de esta ventaja decisiva.

    Finalmente, en entornos de movilidad, el trasiego del archivo de voz de cada operación de dictado impondría por narices un lapso muy superior al que se puede conseguir con una operación puramente local. Haciendo una analogía superficial, sería como la diferencia entre jugar en red local y jugar en Internet pero mucho más a lo bestia

    ResponderEliminar
  11. No sé cómo se implementa el reconocimiento de voz por software, pero puedo imaginarlo como una especie de "cadena de montaje" con varios componentes software en serie: primero se captura el audio, se pasa por una serie de filtros, luego por un comparador de patrones que da como salida las palabras más probables (con su fiabilidad) y finalmente por un analizador sintáctico que escoge la opción más probable y devuelve el texto.

    Al añadir un servidor, parte de esos componentes software se ejecutarían remotamente. Lo único que cambian son algunas de las comunicaciones entre componentes, que antes se hacían directamente en memoria y ahora se hacen a través de Internet.

    Tampoco creo que haya que prescindir del entrenamiento. Total, con la de datos que tiene ya Google de nosotros, almacenar nuestro perfil de voz tampoco parece descabellado (otra cosa es que sea prudente).

    Lo que ya no sé es que ancho de banda hace falta para transmitir voz en tiempo real, pero no creo que sea mucho. Al fin y al cabo, el ancho de banda del GSM no es gran cosa y permite conversaciones en tiempo real.

    ResponderEliminar

Related Posts Plugin for WordPress, Blogger...