# Reflexión sobre el caso de estudio: [El Guardián del Laberinto Adaptativo: Un reto de IA]
Reflexión sobre el caso de estudio: [El Guardián del Laberinto Adaptativo: Un reto de IA]
Autor: @aryrodriguez
Fecha: 13/01/2026
Materia: Programación de Entornos Virtuales
Profesor: @frexus
Reflexión personal
Este reto permitió comprender que la Inteligencia Artificial no solo depende de algoritmos avanzados, sino de una correcta definición del problema y del entorno en el que se aplica. Al analizar cómo un avatar debe percibir, decidir y actuar dentro de un escenario virtual, se hizo evidente la importancia de estructurar bien los datos, las reglas y los objetivos. Además, esta actividad ayudó a valorar cómo la IA puede mejorar la eficiencia y el realismo en simulaciones industriales, demostrando que una buena planificación es tan importante como la programación misma.
Caso de estudio
He leído y analizado el caso publicado por el profesor:
Enlace al caso de estudio
En este caso se aborda el tema de Inteligencia Artificial en entornos virtuales, donde se presenta una situación simulada de un almacén automatizado para aplicar conceptos de percepción, toma de decisiones y aprendizaje mediante IA.
Reto Diagnóstico: "Configurando la Inteligencia del Guardián"
- Elige tu "Cerebro" (Selección de Librería)
Si tuvieras que elegir una herramienta para dar vida a este avatar en el entorno virtual, ¿cuál elegirías y por qué?
Yo elegiria ML-Agents (Unity)
- Está integrado con Unity, así que conectas rápido el agente con el entorno (físicas, colisiones, sensores, animaciones) sin armar toda la tubería externa.
- Permite aprendizaje por refuerzo, ideal para un almacén con obstáculos impredecibles: el avatar aprende a evitar colisiones y seguir cumpliendo la tarea ajustándose a cambios.
- Facilita definir observaciones, acciones y recompensas dentro del mismo proyecto, y acelerar entrenamiento con varias simulaciones para que aprenda más rápido.
- Es muy útil para prototipado: puedes pasar de “se atora con obstáculos” a “se adapta y decide” sin rehacer todo el sistema desde cero.
2.El Mapa de Datos (Instalación e Integración)
Imagina que la librería de IA es un "GPS externo" que no puede ver el mundo físico. Tú debes enviarle los datos correctos para que tome decisiones.
Responde: ¿Qué información específica debe enviarle el entorno virtual a la IA en cada segundo para evitar colisiones?
- Distancias a obstáculos en varias direcciones (tipo “raycasts”): frente, atrás, izquierda, derecha y diagonales (incluyendo altura si hay rampas/estanterías).
- Dirección y distancia al objetivo actual: vector hacia el paquete o hacia el punto de entrega (posición relativa, no solo coordenadas absolutas).
- Velocidad y dirección de movimiento del avatar: velocidad actual, aceleración y orientación (hacia dónde está “mirando”).
- Posición y movimiento de obstáculos dinámicos (trabajadores/montacargas): distancia, dirección relativa y velocidad de los objetos cercanos para anticipar cruces.
- Mapa local de navegabilidad: si la celda/área alrededor está libre u ocupada (ocupación tipo grid o “navmesh local” resumido).
- Estado de colisión/alerta: si está muy cerca de chocar, si tocó algo recientemente, y en qué lado ocurrió el contacto.
- Espacio libre en el rumbo elegido: por ejemplo, el “camino” más despejado según sensores (ancho disponible o distancia mínima al obstáculo más cercano).
- Información de la tarea: si ya lleva paquete, si está buscando uno, prioridad del paquete, y tiempo restante.
3.El Sistema de Premios (Entrenamiento)
La IA moderna aprende mediante un sistema de Recompensas y Castigos (Reinforcement Learning). Como si estuvieras entrenando a una mascota digital, tú defines las reglas del éxito.
Premio: ¿Cuántos puntos le otorgas al agente por recoger un paquete con éxito?
+10 puntos (si además lo entrega en un punto final, puedes dar +20 por entrega completa).
Castigo: ¿Cuántos puntos le restas por chocar contra un muro o un obstáculo?
−5 puntos (si el choque es fuerte o repetido, puedes subirlo a −8 / −10).
El Dilema de la Inactividad: ¿Qué pasa si el agente decide quedarse quieto para evitar chocar y así no perder puntos? ¿Cómo lo castigarías o incentivarías para que se mantenga en movimiento?
-Castigo por tiempo: −0.01 por cada segundo sin progreso (o por cada “step”).
-Incentivo por moverse hacia el objetivo: +0.02 cuando reduce la distancia al paquete (recompensa densa).
-Penalización si se aleja del objetivo: −0.02 cuando aumenta esa distancia.
Con esto, el agente entiende que no conviene quedarse parado, pero tampoco conviene correr a lo loco porque chocar sale caro
Actividades complementarias
Preguntas de Reflexión (Evaluación Diagnóstica)
-Diferenciación conceptual
Un personaje con scripts if-else solo sigue reglas fijas: si pasa esto, hace esto otro. No puede adaptarse si ocurre algo que no estaba previsto. En cambio, un personaje con IA aprende de la experiencia y puede modificar su comportamiento según lo que sucede en el entorno. Esto le permite reaccionar mejor ante situaciones nuevas o imprevistas.
-Percepción del entorno
La IA necesita recibir datos como la distancia a los objetos, la dirección a la que mira, la posición de los paquetes y la velocidad de movimiento. Estos datos funcionan como “sensores digitales” que describen lo que ocurre alrededor. Luego, la IA los convierte en números que su modelo puede procesar para decidir hacia dónde moverse o qué acción tomar.
-Selección e integración de herramientas
Al elegir una librería de IA es importante que sea compatible con el motor gráfico y que no consuma demasiados recursos. También debe permitir una buena comunicación entre la simulación y el modelo de IA. Si la integración es eficiente, el juego o simulación no perderá fluidez ni bajará los FPS.
-Proceso de aprendizaje
Un entorno para humanos busca verse realista, divertido o intuitivo. En cambio, un entorno para entrenar una IA puede ser más simple, repetitivo y rápido, porque lo importante es que la IA aprenda. Se pueden ejecutar miles de pruebas en poco tiempo para que el agente mejore su comportamiento por ensayo y error.
-Mantenimiento y pruebas
Si el avatar gira sin parar, primero se revisa si las acciones que envía la IA están bien configuradas. Luego se verifica si la física del entorno permite moverse correctamente. Por último, se analizan los datos de entrada para ver si la IA está recibiendo información errónea o incompleta.
-Impacto de la incertidumbre
Para manejar grados de verdad, se pueden usar valores continuos en lugar de decisiones binarias. Por ejemplo, la batería puede tener un valor entre 0 y 100, y la distancia al objetivo también puede medirse en números. Con esto, la IA aprende a tomar decisiones según qué tan cerca está o qué tan baja está la batería, no solo con sí o no.
Conclusiones finales
Aprendizaje obtenido:
Se aprendió a analizar un problema de navegación desde la perspectiva de la Inteligencia Artificial, entendiendo cómo un agente virtual necesita datos del entorno, reglas de recompensa y una herramienta adecuada para poder tomar decisiones. También se comprendió la diferencia entre un comportamiento programado de forma rígida y uno que aprende y se adapta mediante experiencia, lo que permite crear simulaciones más realistas y eficientes.
Dificultades enfrentadas:
Una de las principales dificultades fue definir qué información del entorno debía recibir la IA para evitar errores como choques o movimientos sin sentido. También resultó complejo diseñar un sistema de recompensas equilibrado, ya que si está mal configurado el agente puede quedarse quieto, girar en círculos o buscar atajos incorrectos, lo que afecta el aprendizaje y el desempeño del avatar.