
Raja Bala: Imaginando un futuro mejor
La curiosidad innata de Rajaā por saber cómo funcionan las cosas le ha llevado a convertirse en uno de nuestros inventores mĆ”s prolĆficos.
Aprovechar el poder de la visión artificial
Raja Bala es el CientĆfico Responsable de Visión Artificial en PARC, una empresa de Xerox. Durante sus dos etapas en Xerox, la curiosidad innata de Raja por saber cómo funcionan las cosas le ha llevado a convertirse en uno de nuestros inventores mĆ”s prolĆficos. TambiĆ©n le ha dado una perspectiva Ćŗnica de cómo la visión artificial cambiarĆ” la forma en que vivimos.
ĀæQuĆ© pasarĆa si un selfi fuese todo lo que se necesita para diagnosticar una enfermedad? ĀæY si pudiera ir y volver al trabajo sin tocar el volante? ĀæY si pudiera entrar en el supermercado, recoger los artĆculos que necesita y marcharse sin esperar en la fila de la caja: el total se deducirĆa automĆ”ticamente de su cuenta bancaria?
No es ciencia ficción. Es el mundo que Raja Bala estĆ” ayudando a construir. Un mundo en el que los ordenadores pueden ver, interpretar y analizar las cosas que les rodean y despuĆ©s usar esa información para tomar decisiones en tiempo real y ayudar a resolver problemas del mundo real. AcompƔƱenos a descubrir al hombre detrĆ”s de la tecnologĆa.
¿Cómo surgió su interés por la visión artificial?
Mientras crecĆa, habĆa un gran interĆ©s en las matemĆ”ticas y las ciencias en mi casa. Mi madre era profesora de ciencias. Mi padre era ingeniero. Pero aunque siempre he tenido un amor particular por las matemĆ”ticas - y algo de talento - nunca he sido una persona con un Ā«cerebro izquierdoĀ» completo. Soy mĆŗsico. Adoro las artes. Por lo tanto, cuando me propuse decidirme por una carrera, quise encontrar algo que pudiera satisfacer todos mis intereses en general.
Al principio no me decidĆ por la visión artificial. Cuando me incorporĆ© a Xerox por primera vez en 1993, lo hice como cientĆfico de imĆ”genes en color. En ese momento, Xerox estaba haciendo la transición de la impresión en blanco y negro a la impresión en color. DirigĆ varios proyectos interesantes que desarrollaban soluciones de gestión del color para impresoras y escĆ”neres de Xerox. No fue hasta el aƱo 2011, despuĆ©s de una adquisición, cuando vi la oportunidad y el potencial de la visión artificial. Hice la transición y el resto es historia.
¿Puede hablarnos de qué es la visión artificial y por qué es tan relevante en el mundo de hoy?
La visión artificial es la ciencia por la cual las mĆ”quinas analizan, interpretan y extraen información Ćŗtil de imĆ”genes y videos, y luego la utilizan para resolver problemas del mundo real. En mi trabajo y en el de mi equipo, intentamos tomar una imagen o vĆdeo digital, convertirla en una representación matemĆ”tica que un ordenador entienda y luego enseƱarle a realizar una tarea utilizando esta representación, como por ejemplo, detectar si hay o no una cara en una imagen.
Aunque la visión artificial existe desde la dĆ©cada de los 60, en los primeros aƱos estaba limitada por la falta de disponibilidad y acceso a imĆ”genes digitales. El anĆ”lisis de imĆ”genes quedó relegado a usos especializados, como en el campo mĆ©dico, y nunca tuvo una exposición masiva. Pero con la llegada de los telĆ©fonos inteligentes y de empresas como Google y Facebook que facilitan mĆ”s que nunca el acceso a imĆ”genes con grandes bases de datos de imĆ”genes con capacidad de bĆŗsqueda, ha disparado la magnitud, relevancia y penetración de la visión artificial en los mercados de consumo masivo. La abundancia de datos de imagen y vĆdeo generados por los consumidores de hoy, junto con los algoritmos avanzados y el hardware informĆ”tico disponible para procesarlos, estĆ” cambiando la forma en que entendemos este campo.
ĀæExisten todavĆa desafĆos que superar en la visión artificial hoy en dĆa, incluso con estos avances?
En este momento, hay muchas expectativas sobre el aprendizaje avanzado y su aplicación en la visión artificial. El aprendizaje avanzado es una manera realmente efectiva de extraer patrones útiles de las imÔgenes. Funciona alimentando muchos ejemplos de imÔgenes en una red neuronal junto con un patrón asociado o veracidad sobre las imÔgenes. La red aprende entonces un conjunto de conexiones y ponderaciones que le permiten identificar el mismo tipo de patrón o veracidad en imÔgenes nuevas.
Cuando se tiene un gran conjunto de datos para trabajar, el aprendizaje a gran escala puede cambiar el juego. Una red profunda es capaz de comprender patrones y relaciones extremadamente complejas en imƔgenes y es muy efectiva en las tareas para las que estƔ entrenada. Un problema fundamental, sin embargo, es que para tener Ʃxito el aprendizaje avanzado depende de la disponibilidad de conjuntos de datos que incluyan millones de imƔgenes y sus etiquetas de verdades bƔsicas. Y muchas aplicaciones no tienen acceso a tantas imƔgenes y etiquetas.
En el campo mĆ©dico, por ejemplo, es posible que pueda utilizarse el aprendizaje avanzado para ayudar a diagnosticar una enfermedad especĆfica. Eso significa entrenar la red avanzada con millones de imĆ”genes de órganos que estĆ”n marcados con diferentes niveles de gravedad de la enfermedad. Pero simplemente, ese volumen no existe. E incluso si existiese, no podrĆamos permitirnos el lujo de que un grupo de expertos clĆnicos se sentaran y etiquetasen todas esas imĆ”genes.
Asà que la pregunta que tenemos que hacernos es, ¿cómo usamos la creatividad para esto? ¿Cómo modificamos el aprendizaje avanzado para tomar decisiones inteligentes basadas en un aprendizaje limitado?
Lo que hemos hecho es revisar algunos de los modelos de los denominados "primeros principios" con los que trabajamos antes de la era del aprendizaje avanzado y utilizarlos para construir conocimientos e inteligencia previos sobre la tarea y el entorno en una red avanzada. Para enseƱar a una red avanzada a reconocer los vasos sanguĆneos en imĆ”genes de la retina, por ejemplo, le damos pistas a la red de que debe buscar estructuras curvas delgadas que se ramifiquen como un Ć”rbol. Con estas pistas, la red no sólo requiere muchas menos imĆ”genes de aprendizaje, sino que en realidad supera los mejores mĆ©todos de aprendizaje avanzado de la actualidad.
No siempre ha trabajado para Xerox, Āæverdad?
Exacto. Después de 22 años en Xerox, decidà ponerme a prueba en un nuevo entorno: trabajar para el grupo de imÔgenes fotogrÔficas en teléfonos inteligentes Samsung desarrollando técnicas de imÔgenes computacionales para los dispositivos Galaxy y Note.
¿Qué se llevó de la experiencia?
Una nueva forma de valorar la sencillez. La mayorĆa de los productos Xerox se utilizan en un entorno de oficina, donde se puede contar con, al menos, un poco de familiaridad del usuario con la tecnologĆa. Pero casi todo el mundo lleva un telĆ©fono inteligente en el bolsillo. Al trabajar en un producto de consumo de este tipo, es necesario tener en cuenta todos los niveles de experiencia tĆ©cnica. Hay que hacer algo fĆ”cil de usar tanto si se es experto como principiante. Ese nivel de simplicidad requiere miles de horas para alcanzarlo. Se dedica una cantidad increĆble de trabajo a asegurarse de que cada clic haga exactamente lo que se supone que debe hacer.
Al regresar a un entorno de investigación en Xerox, sĆ© quĆ© se necesita para convertir una ciencia excelente en un producto impactante. Una cosa es poder publicar un gran artĆculo sobre una investigación. Pero si se desea que la investigación tenga como resultado un producto que un cliente final pueda utilizar, debe ser infalible, simple e intuitivo en la medida de lo posible. Realmente es necesario hacer un esfuerzo extra.
Digamos que estamos trabajando en una aplicación móvil para el escaneado inteligente de documentos. La visión artificial normalmente requiere mucha potencia de procesamiento, algo que no suele estar disponible en un dispositivo móvil. Por lo tanto, si desea que su solución sea algo mÔs que un ejercicio académico, debe ser inteligente para hacerla que no solo sea precisa, sino también rÔpida y eficiente desde el punto de vista energético. De lo contrario, la gente no la usarÔ.
¿CuÔl de sus proyectos ha tenido el mayor impacto en el mundo?
Mi equipo colaboró con Procter and Gamble para proporcionar la visión artificial y la tecnologĆa de aprendizaje por ordenador necesaria para Ā«Olay Skin AdvisorĀ». Es una plataforma móvil que captura un selfi de un consumidor, analiza su rostro y luego ofrece recomendaciones de productos para el cuidado de la piel.
Lo ideal serĆa que siempre pudiera hablar con un dermatólogo sobre sus problemas de la piel. Pero en Estados Unidos es caro. El cuidado de la piel es un proceso continuo, la mayorĆa de las personas no pueden permitĆrselo. ĀæComo cuidarse la piel uno mismo? DĆ© una vuelta por cualquier tienda de belleza. Hay cientos de productos para elegir. Es frustrante, confuso y fĆ”cil tomar la decisión equivocada. Menos de dos tercios de las mujeres saben quĆ© productos funcionan mejor para su tipo de piel.
P&G querĆa resolver este problema con un navegador de belleza de bajo coste y personalizado. AsĆ que desarrollamos una aplicación móvil fĆ”cil de usar. Pensamos, Āæpor quĆ© no aprovechar las cĆ”maras de alta calidad que los consumidores llevan consigo?
Para usar esta aplicación, el consumidor debe empezar por hacerse un selfi de la cara. Esa imagen se analiza con visión artificial para decidir si es suficientemente buena para realizar un anÔlisis de la piel, comprobando que haya iluminación , distancia, expresión facial y la ausencia de obstrucciones sean las adecuadas. Si la imagen pasa todas las pruebas, la aplicación analizarÔ la piel del consumidor, le harÔ saber qué pasa con su piel y le sugerirÔ productos y cambios de rutina para cuidarla.
Tenemos mÔs de un millón de usuarios activos y ha habido cinco millones de visitas al sitio desde el lanzamiento de la aplicación.
¿Qué Ôrea de la visión artificial le entusiasma mÔs en el futuro?
La visión artificial y el dominio mĆ”s amplio de la IA son una gran Ć”rea en la que estar hoy en dĆa. Hace poco tiempo que este campo ha madurado lo suficiente como para empezar a tener un impacto real, significativo y generalizado en el mundo, desde tareas rutinarias como el depósito automĆ”tico de cheques con la cĆ”mara de su telĆ©fono inteligente hasta grandes aplicaciones como la conducción autónoma y el diagnóstico precoz de enfermedades. Las aplicaciones son numerosas y siguen creciendo. Y hay numerosos desafĆos cientĆficos y de ingenierĆa sin resolver para que estas aplicaciones sean precisas y fiables.
Pero, personalmente, lo que mĆ”s me entusiasma es la continuación de nuestro trabajo en la construcción de mĆ©todos de visión artificial que se basan en modelos anteriores del mundo y aprenden de ejemplos de datos. Los modelos abarcan desde nuestro trabajo con los vasos sanguĆneos de la retina hasta el conocimiento general de sentido comĆŗn sobre los objetos cotidianos, las personas y las leyes de la naturaleza. Gracias al magnĆfico entorno que Xerox proporciona para la innovación, estamos a la vanguardia de la introducción de estos modelos del mundo real en mĆ©todos de aprendizaje automatizados basados en datos para crear una forma de aprendizaje hĆbrido. No puedo imaginar un lugar mĆ”s emocionante en el que estar.

Agentes de cambio
Todos hemos cambiado el mundo. Cada uno de nosotros. Con cada respiración, nuestra presencia se expande infinitamente hacia el exterior.
Pero pocos de nosotros tenemos la oportunidad de cambiar muchas vidas a mejor. Y aĆŗn menos tenemos el desafĆo de hacerlo todos los dĆas. Ese es el desafĆo que se le lanza diariamente a los cientĆficos de investigación de Xerox, para tratar de lograr un cambio.
A cambio, les damos tiempo y espacio para soƱar. Y luego los recursos para convertir los sueƱos en realidad, ya sea inventando nuevos materiales con funciones increĆbles o utilizando la realidad aumentada para reforzar la memoria de los pacientes de Alzheimer.
Nos sentimos orgullosos de nuestros agentes de cambio en los centros de investigación de Xerox en todo el mundo. Aquà tenemos algunas de sus historias.