Pasar al contenido principalHaga clic para ver nuestra Declaración de accesibilidad o póngase en contacto con nosotros si tiene alguna pregunta relacionada con la accesibilidad.

People looking through a wall of digital images
Agentes del cambio

Raja Bala: Imaginando un futuro mejor

La curiosidad innata de Raja’ por saber cómo funcionan las cosas le ha llevado a convertirse en uno de nuestros inventores mĆ”s prolĆ­ficos.

Aprovechar el poder de la visión artificial

Raja Bala es el Científico Responsable de Visión Artificial en PARC, una empresa de Xerox. Durante sus dos etapas en Xerox, la curiosidad innata de Raja por saber cómo funcionan las cosas le ha llevado a convertirse en uno de nuestros inventores mÔs prolíficos. También le ha dado una perspectiva única de cómo la visión artificial cambiarÔ la forma en que vivimos.

¿Qué pasaría si un selfi fuese todo lo que se necesita para diagnosticar una enfermedad? ¿Y si pudiera ir y volver al trabajo sin tocar el volante? ¿Y si pudiera entrar en el supermercado, recoger los artículos que necesita y marcharse sin esperar en la fila de la caja: el total se deduciría automÔticamente de su cuenta bancaria?

No es ciencia ficción. Es el mundo que Raja Bala estÔ ayudando a construir. Un mundo en el que los ordenadores pueden ver, interpretar y analizar las cosas que les rodean y después usar esa información para tomar decisiones en tiempo real y ayudar a resolver problemas del mundo real. AcompÔñenos a descubrir al hombre detrÔs de la tecnología.

¿Cómo surgió su interés por la visión artificial?

Mientras crecía, había un gran interés en las matemÔticas y las ciencias en mi casa. Mi madre era profesora de ciencias. Mi padre era ingeniero. Pero aunque siempre he tenido un amor particular por las matemÔticas - y algo de talento - nunca he sido una persona con un «cerebro izquierdo» completo. Soy músico. Adoro las artes. Por lo tanto, cuando me propuse decidirme por una carrera, quise encontrar algo que pudiera satisfacer todos mis intereses en general.

Al principio no me decidí por la visión artificial. Cuando me incorporé a Xerox por primera vez en 1993, lo hice como científico de imÔgenes en color. En ese momento, Xerox estaba haciendo la transición de la impresión en blanco y negro a la impresión en color. Dirigí varios proyectos interesantes que desarrollaban soluciones de gestión del color para impresoras y escÔneres de Xerox. No fue hasta el año 2011, después de una adquisición, cuando vi la oportunidad y el potencial de la visión artificial. Hice la transición y el resto es historia.

¿Puede hablarnos de qué es la visión artificial y por qué es tan relevante en el mundo de hoy?

La visión artificial es la ciencia por la cual las mÔquinas analizan, interpretan y extraen información útil de imÔgenes y videos, y luego la utilizan para resolver problemas del mundo real. En mi trabajo y en el de mi equipo, intentamos tomar una imagen o vídeo digital, convertirla en una representación matemÔtica que un ordenador entienda y luego enseñarle a realizar una tarea utilizando esta representación, como por ejemplo, detectar si hay o no una cara en una imagen.

Aunque la visión artificial existe desde la década de los 60, en los primeros años estaba limitada por la falta de disponibilidad y acceso a imÔgenes digitales. El anÔlisis de imÔgenes quedó relegado a usos especializados, como en el campo médico, y nunca tuvo una exposición masiva. Pero con la llegada de los teléfonos inteligentes y de empresas como Google y Facebook que facilitan mÔs que nunca el acceso a imÔgenes con grandes bases de datos de imÔgenes con capacidad de búsqueda, ha disparado la magnitud, relevancia y penetración de la visión artificial en los mercados de consumo masivo. La abundancia de datos de imagen y vídeo generados por los consumidores de hoy, junto con los algoritmos avanzados y el hardware informÔtico disponible para procesarlos, estÔ cambiando la forma en que entendemos este campo.

¿Existen todavía desafíos que superar en la visión artificial hoy en día, incluso con estos avances?

En este momento, hay muchas expectativas sobre el aprendizaje avanzado y su aplicación en la visión artificial. El aprendizaje avanzado es una manera realmente efectiva de extraer patrones útiles de las imÔgenes. Funciona alimentando muchos ejemplos de imÔgenes en una red neuronal junto con un patrón asociado o veracidad sobre las imÔgenes. La red aprende entonces un conjunto de conexiones y ponderaciones que le permiten identificar el mismo tipo de patrón o veracidad en imÔgenes nuevas.

Cuando se tiene un gran conjunto de datos para trabajar, el aprendizaje a gran escala puede cambiar el juego. Una red profunda es capaz de comprender patrones y relaciones extremadamente complejas en imƔgenes y es muy efectiva en las tareas para las que estƔ entrenada. Un problema fundamental, sin embargo, es que para tener Ʃxito el aprendizaje avanzado depende de la disponibilidad de conjuntos de datos que incluyan millones de imƔgenes y sus etiquetas de verdades bƔsicas. Y muchas aplicaciones no tienen acceso a tantas imƔgenes y etiquetas.

En el campo médico, por ejemplo, es posible que pueda utilizarse el aprendizaje avanzado para ayudar a diagnosticar una enfermedad específica. Eso significa entrenar la red avanzada con millones de imÔgenes de órganos que estÔn marcados con diferentes niveles de gravedad de la enfermedad. Pero simplemente, ese volumen no existe. E incluso si existiese, no podríamos permitirnos el lujo de que un grupo de expertos clínicos se sentaran y etiquetasen todas esas imÔgenes.

Así que la pregunta que tenemos que hacernos es, ¿cómo usamos la creatividad para esto? ¿Cómo modificamos el aprendizaje avanzado para tomar decisiones inteligentes basadas en un aprendizaje limitado?

Lo que hemos hecho es revisar algunos de los modelos de los denominados "primeros principios" con los que trabajamos antes de la era del aprendizaje avanzado y utilizarlos para construir conocimientos e inteligencia previos sobre la tarea y el entorno en una red avanzada. Para enseñar a una red avanzada a reconocer los vasos sanguíneos en imÔgenes de la retina, por ejemplo, le damos pistas a la red de que debe buscar estructuras curvas delgadas que se ramifiquen como un Ôrbol. Con estas pistas, la red no sólo requiere muchas menos imÔgenes de aprendizaje, sino que en realidad supera los mejores métodos de aprendizaje avanzado de la actualidad.

No siempre ha trabajado para Xerox, Āæverdad?

Exacto. DespuƩs de 22 aƱos en Xerox, decidƭ ponerme a prueba en un nuevo entorno: trabajar para el grupo de imƔgenes fotogrƔficas en telƩfonos inteligentes Samsung desarrollando tƩcnicas de imƔgenes computacionales para los dispositivos Galaxy y Note.

¿Qué se llevó de la experiencia?

Una nueva forma de valorar la sencillez. La mayorƭa de los productos Xerox se utilizan en un entorno de oficina, donde se puede contar con, al menos, un poco de familiaridad del usuario con la tecnologƭa. Pero casi todo el mundo lleva un telƩfono inteligente en el bolsillo. Al trabajar en un producto de consumo de este tipo, es necesario tener en cuenta todos los niveles de experiencia tƩcnica. Hay que hacer algo fƔcil de usar tanto si se es experto como principiante. Ese nivel de simplicidad requiere miles de horas para alcanzarlo. Se dedica una cantidad increƭble de trabajo a asegurarse de que cada clic haga exactamente lo que se supone que debe hacer.

Al regresar a un entorno de investigación en Xerox, sé qué se necesita para convertir una ciencia excelente en un producto impactante. Una cosa es poder publicar un gran artículo sobre una investigación. Pero si se desea que la investigación tenga como resultado un producto que un cliente final pueda utilizar, debe ser infalible, simple e intuitivo en la medida de lo posible. Realmente es necesario hacer un esfuerzo extra.

Digamos que estamos trabajando en una aplicación móvil para el escaneado inteligente de documentos. La visión artificial normalmente requiere mucha potencia de procesamiento, algo que no suele estar disponible en un dispositivo móvil. Por lo tanto, si desea que su solución sea algo mÔs que un ejercicio académico, debe ser inteligente para hacerla que no solo sea precisa, sino también rÔpida y eficiente desde el punto de vista energético. De lo contrario, la gente no la usarÔ.

¿CuÔl de sus proyectos ha tenido el mayor impacto en el mundo?

Mi equipo colaboró con Procter and Gamble para proporcionar la visión artificial y la tecnología de aprendizaje por ordenador necesaria para «Olay Skin Advisor». Es una plataforma móvil que captura un selfi de un consumidor, analiza su rostro y luego ofrece recomendaciones de productos para el cuidado de la piel.

Lo ideal sería que siempre pudiera hablar con un dermatólogo sobre sus problemas de la piel. Pero en Estados Unidos es caro. El cuidado de la piel es un proceso continuo, la mayoría de las personas no pueden permitírselo. ¿Como cuidarse la piel uno mismo? Dé una vuelta por cualquier tienda de belleza. Hay cientos de productos para elegir. Es frustrante, confuso y fÔcil tomar la decisión equivocada. Menos de dos tercios de las mujeres saben qué productos funcionan mejor para su tipo de piel.

P&G quería resolver este problema con un navegador de belleza de bajo coste y personalizado. Así que desarrollamos una aplicación móvil fÔcil de usar. Pensamos, ¿por qué no aprovechar las cÔmaras de alta calidad que los consumidores llevan consigo?

Para usar esta aplicación, el consumidor debe empezar por hacerse un selfi de la cara. Esa imagen se analiza con visión artificial para decidir si es suficientemente buena para realizar un anÔlisis de la piel, comprobando que haya iluminación , distancia, expresión facial y la ausencia de obstrucciones sean las adecuadas. Si la imagen pasa todas las pruebas, la aplicación analizarÔ la piel del consumidor, le harÔ saber qué pasa con su piel y le sugerirÔ productos y cambios de rutina para cuidarla.

Tenemos mÔs de un millón de usuarios activos y ha habido cinco millones de visitas al sitio desde el lanzamiento de la aplicación.

¿Qué Ôrea de la visión artificial le entusiasma mÔs en el futuro?

La visión artificial y el dominio mÔs amplio de la IA son una gran Ôrea en la que estar hoy en día. Hace poco tiempo que este campo ha madurado lo suficiente como para empezar a tener un impacto real, significativo y generalizado en el mundo, desde tareas rutinarias como el depósito automÔtico de cheques con la cÔmara de su teléfono inteligente hasta grandes aplicaciones como la conducción autónoma y el diagnóstico precoz de enfermedades. Las aplicaciones son numerosas y siguen creciendo. Y hay numerosos desafíos científicos y de ingeniería sin resolver para que estas aplicaciones sean precisas y fiables.

Pero, personalmente, lo que mÔs me entusiasma es la continuación de nuestro trabajo en la construcción de métodos de visión artificial que se basan en modelos anteriores del mundo y aprenden de ejemplos de datos. Los modelos abarcan desde nuestro trabajo con los vasos sanguíneos de la retina hasta el conocimiento general de sentido común sobre los objetos cotidianos, las personas y las leyes de la naturaleza. Gracias al magnífico entorno que Xerox proporciona para la innovación, estamos a la vanguardia de la introducción de estos modelos del mundo real en métodos de aprendizaje automatizados basados en datos para crear una forma de aprendizaje híbrido. No puedo imaginar un lugar mÔs emocionante en el que estar.

Photo of a street with an arrow on it, overlaid with the words "Agents of Change"

Agentes de cambio

Todos hemos cambiado el mundo. Cada uno de nosotros. Con cada respiración, nuestra presencia se expande infinitamente hacia el exterior.

Pero pocos de nosotros tenemos la oportunidad de cambiar muchas vidas a mejor. Y aún menos tenemos el desafío de hacerlo todos los días. Ese es el desafío que se le lanza diariamente a los científicos de investigación de Xerox, para tratar de lograr un cambio.

A cambio, les damos tiempo y espacio para soƱar. Y luego los recursos para convertir los sueƱos en realidad, ya sea inventando nuevos materiales con funciones increƭbles o utilizando la realidad aumentada para reforzar la memoria de los pacientes de Alzheimer.

Nos sentimos orgullosos de nuestros agentes de cambio en los centros de investigación de Xerox en todo el mundo. Aquí tenemos algunas de sus historias.

Compartir