banner

Blog

Aug 25, 2023

Investigadores usan IA para identificar materiales similares en imágenes

Las imágenes para descargar en el sitio web de la oficina de noticias del MIT están disponibles para entidades no comerciales, la prensa y el público en general bajo una licencia Creative Commons Attribution Non-Commercial No Derivatives. No puede alterar las imágenes proporcionadas, excepto para recortarlas al tamaño. Se debe utilizar una línea de crédito al reproducir imágenes; si no se proporciona uno a continuación, acredite las imágenes a "MIT".

Imagen anterior Imagen siguiente

Un robot que manipule objetos mientras, por ejemplo, trabaja en una cocina, se beneficiará al comprender qué elementos están compuestos por los mismos materiales. Con este conocimiento, el robot sabría ejercer una fuerza similar, ya sea que recoja una pequeña porción de mantequilla de una esquina oscura del mostrador o una barra entera del interior de la nevera bien iluminada.

Identificar objetos en una escena que están compuestos del mismo material, conocido como selección de materiales, es un problema especialmente desafiante para las máquinas porque la apariencia de un material puede variar drásticamente según la forma del objeto o las condiciones de iluminación.

Los científicos del MIT y Adobe Research han dado un paso para resolver este desafío. Desarrollaron una técnica que puede identificar todos los píxeles en una imagen que representa un material determinado, que se muestra en un píxel seleccionado por el usuario.

El método es preciso incluso cuando los objetos tienen diferentes formas y tamaños, y el modelo de aprendizaje automático que desarrollaron no se ve engañado por las sombras o las condiciones de iluminación que pueden hacer que el mismo material parezca diferente.

Aunque entrenaron su modelo usando solo datos "sintéticos", que son creados por una computadora que modifica escenas 3D para producir muchas imágenes diferentes, el sistema funciona de manera efectiva en escenas interiores y exteriores reales que nunca antes había visto. El enfoque también se puede utilizar para videos; una vez que el usuario identifica un píxel en el primer cuadro, el modelo puede identificar objetos hechos del mismo material a lo largo del resto del video.

Además de las aplicaciones en la comprensión de escenas para la robótica, este método podría usarse para la edición de imágenes o incorporarse a sistemas computacionales que deduzcan los parámetros de los materiales en las imágenes. También podría utilizarse para sistemas de recomendación web basados ​​en materiales. (Quizás un comprador está buscando ropa hecha de un tipo particular de tela, por ejemplo).

"Saber con qué material está interactuando suele ser bastante importante. Aunque dos objetos pueden parecer similares, pueden tener diferentes propiedades materiales. Nuestro método puede facilitar la selección de todos los demás píxeles en una imagen que están hechos del mismo material". dice Prafull Sharma, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación y autor principal de un artículo sobre esta técnica.

Los coautores de Sharma incluyen a Julien Philip y Michael Gharbi, científicos investigadores de Adobe Research; y los autores principales William T. Freeman, profesor de Ingeniería Eléctrica y Ciencias de la Computación Thomas and Gerd Perkins y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); Frédo Durand, profesor de ingeniería eléctrica e informática y miembro de CSAIL; y Valentin Deschaintre, científico investigador de Adobe Research. La investigación se presentará en la conferencia SIGGRAPH 2023.

Un nuevo enfoque

Los métodos existentes para la selección de materiales tienen dificultades para identificar con precisión todos los píxeles que representan el mismo material. Por ejemplo, algunos métodos se enfocan en objetos completos, pero un objeto puede estar compuesto de varios materiales, como una silla con brazos de madera y un asiento de cuero. Otros métodos pueden utilizar un conjunto predeterminado de materiales, pero estos a menudo tienen etiquetas amplias como "madera", a pesar de que hay miles de variedades de madera.

En cambio, Sharma y sus colaboradores desarrollaron un enfoque de aprendizaje automático que evalúa dinámicamente todos los píxeles de una imagen para determinar las similitudes materiales entre un píxel que selecciona el usuario y todas las demás regiones de la imagen. Si una imagen contiene una mesa y dos sillas, y las patas de la silla y el tablero están hechos del mismo tipo de madera, su modelo podría identificar con precisión esas regiones similares.

Antes de que los investigadores pudieran desarrollar un método de IA para aprender a seleccionar materiales similares, tuvieron que superar algunos obstáculos. En primer lugar, ningún conjunto de datos existente contenía materiales que estuvieran etiquetados con la precisión suficiente para entrenar su modelo de aprendizaje automático. Los investigadores generaron su propio conjunto de datos sintéticos de escenas interiores, que incluía 50 000 imágenes y más de 16 000 materiales aplicados aleatoriamente a cada objeto.

"Queríamos un conjunto de datos en el que cada tipo de material individual se marcara de forma independiente", dice Sharma.

Con un conjunto de datos sintéticos en la mano, entrenaron un modelo de aprendizaje automático para la tarea de identificar materiales similares en imágenes reales, pero falló. Los investigadores se dieron cuenta de que el cambio de distribución era el culpable. Esto ocurre cuando un modelo se entrena con datos sintéticos, pero falla cuando se prueba con datos del mundo real que pueden ser muy diferentes del conjunto de entrenamiento.

Para resolver este problema, construyeron su modelo sobre un modelo de visión por computadora previamente entrenado, que ha visto millones de imágenes reales. Utilizaron el conocimiento previo de ese modelo aprovechando las características visuales que ya había aprendido.

"En el aprendizaje automático, cuando usa una red neuronal, por lo general aprende la representación y el proceso de resolver la tarea juntos. Hemos desenredado esto. El modelo preentrenado nos brinda la representación, luego nuestra red neuronal solo se enfoca en resolver la tarea". tarea", dice.

Resolviendo por semejanza

El modelo de los investigadores transforma las características visuales genéricas preentrenadas en características específicas del material, y lo hace de una manera que es robusta para las formas de los objetos o las condiciones de iluminación variadas.

Luego, el modelo puede calcular una puntuación de similitud de material para cada píxel de la imagen. Cuando un usuario hace clic en un píxel, el modelo determina qué tan cerca en apariencia está cada otro píxel de la consulta. Produce un mapa donde cada píxel se clasifica en una escala de 0 a 1 por similitud.

"El usuario simplemente hace clic en un píxel y luego el modelo seleccionará automáticamente todas las regiones que tienen el mismo material", dice.

Dado que el modelo genera una puntuación de similitud para cada píxel, el usuario puede ajustar los resultados estableciendo un umbral, como el 90 por ciento de similitud, y recibir un mapa de la imagen con esas regiones resaltadas. El método también funciona para la selección de imágenes cruzadas: el usuario puede seleccionar un píxel en una imagen y encontrar el mismo material en una imagen separada.

Durante los experimentos, los investigadores descubrieron que su modelo podía predecir regiones de una imagen que contenían el mismo material con mayor precisión que otros métodos. Cuando midieron qué tan bien la predicción se comparó con la realidad del terreno, es decir, las áreas reales de la imagen que están compuestas del mismo material, su modelo coincidió con una precisión de aproximadamente el 92 por ciento.

En el futuro, quieren mejorar el modelo para que pueda capturar mejor los detalles finos de los objetos en una imagen, lo que aumentaría la precisión de su enfoque.

"Los materiales enriquecidos contribuyen a la funcionalidad y la belleza del mundo en el que vivimos. Pero los algoritmos de visión por computadora suelen pasar por alto los materiales y, en cambio, se centran en gran medida en los objetos. Este documento hace una contribución importante en el reconocimiento de materiales en imágenes y videos en una amplia gama de condiciones desafiantes. ", dice Kavita Bala, decana de la Facultad de Informática y Ciencias de la Información de Cornell Bowers y profesora de Ciencias de la Computación, que no participó en este trabajo. "Esta tecnología puede ser muy útil tanto para los consumidores finales como para los diseñadores. Por ejemplo, el propietario de una casa puede imaginar lo caras que pueden parecer opciones como volver a tapizar un sofá o cambiar la alfombra de una habitación, y puede tener más confianza en sus elecciones de diseño. basado en estas visualizaciones".

Los investigadores del MIT han desarrollado una nueva técnica de aprendizaje automático que puede identificar qué píxeles de una imagen representan el mismo material, lo que podría ayudar a comprender la escena robótica, informa Kyle Wiggers para TechCrunch. "Dado que un objeto puede ser de múltiples materiales, así como colores y otros aspectos visuales, esta es una distinción bastante sutil pero también intuitiva", escribe Wiggers.

Elemento anterior Elemento siguiente

Elemento anterior Elemento siguiente

Un nuevo enfoque Resolviendo la similitud
COMPARTIR