Modulo 3.pdf

Aprendizaje Aprendizaje: conceptos generales Aprendizaje estadístico / bayesiano Aprendizaje con datos completos, refuerzo activo y pasivo Generalización del aprendizaje por refuerzo Aplicaciones a juegos y controles de robots Referencias Descarga en PDF Lección 1 de 7 Aprendizaje: conceptos generales Por ser ésta la primera lectura en la que se hace referencia al concepto de aprendizaje, resulta conveniente comenzar a explorar algunas deﬁniciones. Rápidamente llegamos a la conclusión de que la mayoría de ellas quedan encuadradas en la siguiente: Se denomina aprendizaje al proceso que, mediante la experiencia, estudio, razonamiento y observación, permite adquirir y modiﬁcar conocimientos, habilidades, destrezas, conductas y valores. El aprendizaje es una de las funciones mentales más importantes en seres humanos y animales. Es un proceso que ha dado lugar a diferentes teorías (teorías del aprendizaje) y ha sido abordado desde diferentes puntos de vista. El aprendizaje es un proceso en el que intervienen los más variados factores: biológicos, genéticos, madurativos, pedagógicos y medio ambientales. Su estudio es objeto de la neuropsicología, la psicología educacional y la antropología, entre otras. La importancia del aprendizaje en los seres vivos lleva, naturalmente, a que sea especialmente considerado en los sistemas artiﬁciales a los que se quiera dotar de alguna forma de inteligencia. Cuando distinguimos las conductas autónomas de las automáticas (módulo 1, lectura 1), atribuimos a las primeras la capacidad de alterar por sí solas el propio comportamiento, posibilidad que está estrechamente relacionada con el aprendizaje. Cabe acotar que no se conoce demasiado sobre las bases neuroﬁsiológicas del aprendizaje. Sin embargo, hay indicios importantes de que está relacionado con la modiﬁcación de las conexiones sinápticas, que representan los puntos de contacto entre neuronas. El fortalecimiento o debilitamiento de las conexiones sinápticas entre las neuronas sería el elemento básico del aprendizaje. Los fundamentos biológicos y estructura del tejido neuronal serán tratados próximamente y de manera introductoria en la lectura 3 de este módulo. Observando el mundo natural, el método de aprendizaje más usual es el asociativo, pudiendo distinguirse la relación entre dos estímulos y entre un estímulo y su respuesta. A la primera posibilidad se la reconoce como condicionamiento clásico y a la segunda como condicionamiento operativo o aprendizaje por refuerzo. En la inteligencia artiﬁcial la importancia del aprendizaje fue advertida desde el primer momento. Sin embargo, es necesario reconocer que, por el momento y seguramente por mucho tiempo más, la capacidad de aprendizaje alcanzada es enormemente más limitada que la de los seres humanos. Basta tomar como ejemplo el reconocimiento de imágenes: mientras que los seres humanos son capaces de distinguir imágenes aun cuando éstas se encuentran seriamente distorsionadas, esa misma operación representa un extremo desafío para los recursos de la inteligencia artiﬁcial. Debe reconocerse, entonces, que el reconocimiento de patrones es una de las indiscutibles fortalezas de la mente humana. Este es un terreno adverso para la inteligencia artiﬁcial, donde no logra llegar a ser competitiva. La capacidad de aprendizaje de nuestros agentes inteligentes estará necesariamente asociada a su percepción y aptitud para tomar decisiones. Se reconocen así tres formas de aprendizaje: Aprendizaje supervisado: consiste en aprender a reproducir una función a partir de ejemplos de sus entradas y salidas. Tratándose de un escenario determinístico, a este aprendizaje se lo reconoce como inductivo. Aprendizaje no supervisado: consiste en aprender a partir de patrones de entradas para los que no se especiﬁcan valores de salidas. Aprendizaje por refuerzo: consiste en aprender a partir del refuerzo, palabra cuyo signiﬁcado aquí es el de recompensa. Es conveniente aclarar que en el módulo 3 se pondrá el foco en los modelos neuronales artiﬁciales y sus técnicas de aprendizaje, temas a ser considerados en las lecturas 3 y 4. Sin embargo, es necesario previamente tratar los conceptos asociados al aprendizaje y razonamiento. A esto estarán dedicadas las lecturas 1 y 2. Sin embargo, el tiempo disponible y la amplitud de estos temas obliga a una presentación solo introductoria, por lo que, salvo algunas excepciones, se excluye un tratamiento detallado y el estudio de sus herramientas de aplicación. Una de las excepciones es el aprendizaje bayesiano básico, que está respaldado por una formulación muy simple y reviste gran utilidad. C O NT I NU A R Lección 2 de 7 Aprendizaje estadístico / bayesiano Los modelos basados en probabilidades son muy utilizados para resolver problemas de clasiﬁcación y aprendizaje. En este contexto, las redes bayesianas son uno de los recursos más utilizados. El punto de partida es normalmente el modelo probabilístico más simple para problemas de clasiﬁcación: el llamado clasiﬁcador bayesiano ingenuo (naive) o CBS (Clasiﬁcador Bayesiando Simple). Entre sus muchas aplicaciones pueden citarse el reconocimiento de voz, reconocimiento del habla y procesamiento de imágenes. Los problemas citados eran tradicionalmente abordados con modelos de Markov, más recientemente se lo hace con extensiones del CBS y modelos conexionistas (redes neuronales). El CBS es un método de clasiﬁcación que hace uso del teorema de Bayes sobre las probabilidades condicionadas. Es posible aplicar este tipo de clasiﬁcación a numerosos campos, en los que el fenómeno que se busca identiﬁcar (por ejemplo: enfermedad, condición operativa, nivel de calidad, etcétera) está representado por un conjunto de atributos o indicadores, y a partir de su evaluación cuantitativa se determina la probabilidad de que se haya presentado la condición estudiada. La caliﬁcación de “ingenua” se debe a que al deﬁnir el clasiﬁcador se asume que las variables utilizadas (atributos) son totalmente independientes unas de otras, es decir, ortogonales entre sí. Naturalmente, esta condición es muy difícil de alcanzar en forma absoluta, pero ha sido comprobado que este modelo opera correctamente aun en casos en que la deseada condición de ortogonalidad solo es moderadamente alcanzada, naturalmente, dentro de ciertos límites. Una extensión del CBS está dada por el llamado Clasiﬁcador Bayesiano Simple Dinámico (CBSD), que es apropiada para para clasiﬁcar procesos dinámicos. Éstos involucran relaciones temporales, suponiendo que los procesos modelados son estacionarios, es decir, sus parámetros no cambian con el tiempo. Además, deben ser procesos markovianos (la probabilidad del estado futuro es independiente del pasado), entre otras condiciones. Volviendo al CBS, se utiliza, entonces, el teorema de Bayes para deﬁnir un modelo causa-efecto basado en probabilidad. Para este caso, el Teorema de Bayes puede ser representado por la siguiente expresión: P (causa / efecto = P (efecto / causa) x P (causa) / P (efecto) Esto signiﬁca que, a través de esta fórmula, puede determinarse la probabilidad de que se presente cierta causa, la que está condicionada a que se compruebe el efecto observado. Para el caso en que el problema (o causa) se maniﬁeste a través de múltiples efectos, ya dijimos independientes entre sí, el problema queda planteado como: P (causa / efecto1…efectoN) = P (efecto1..efectoN/ causa) x P (causa) / P (efecto1..efectoN) Esta expresión puede ser simpliﬁcada, considerando que en la práctica solo importa el numerador. Esto es así ya que, al no depender el denominador de la “causa” y los valores de “efectok” representar datos, el valor del denominador es una constante. Considerando ahora que el numerador representa una probabilidad compuesta y también la independencia de los efectos, la expresión anterior puede ser reescrita: P (causa / efecto1…efectoN) = 1/Z x P (causa) x P (efecto1/ causa) x … x P (efectoN / causa) P (causa / efecto1…efectoN) = 1/Z x P (causa) x ∏ P (efectok / causa) donde z = P (efecto1…efectoN) Los puntos fuertes destacables de este método son: “Es una manera fácil y rápida de predecir clases, para problemas de clasiﬁcación binarios y multiclase” (Platzi, s.f., https://bit.ly/3dvLope). “En los casos en que sea apropiada una presunción de independencia entre los indicadores, el algoritmo se comporta mejor que otros modelos de clasiﬁcación, incluso con menos datos de entrenamiento” (Platzi, s.f., https://bit.ly/3dvLope). “El desacoplamiento de las distribuciones de características condicionales de clase signiﬁca que cada distribución puede ser estimada independientemente como si tuviera una sola dimensión. Esto ayuda con problemas derivados de la dimensionalidad y mejora el rendimiento” (Platzi, s.f., https://bit.ly/3dvLope). La cantidad de datos de entrenamiento que necesita para estimar los parámetros (las medias y las varianzas de las variables) obligatorios para la clasiﬁcación es muy pequeña. C O NT I NU A R Lección 3 de 7 Aprendizaje con datos completos, refuerzo activo y pasivo El desarrollo de métodos de aprendizaje basado en probabilidades se basa en la deﬁnición de parámetros con datos completos. La tarea de aprendizaje de parámetros implica encontrar los parámetros numéricos para un modelo probabilístico cuya estructura está deﬁnida. En este contexto, se dice que los datos son completos cuando incluyen valores para cada variable del modelo de probabilidad que está siendo aprendido, lo que simpliﬁca en gran medida el problema de aprendizaje de parámetros de un problema complejo. El caso de problemas de aprendizaje de la estructura no será tratado en el curso. Ya se anticipó que el aprendizaje por refuerzo (reinforcement learning) es un tipo de aprendizaje en el que un “agente” que opera en un entorno dado debe identiﬁcar las acciones apropiadas con la ﬁnalidad de obtener la máxima recompensa. Esta concepción del aprendizaje está inspirada en la corriente conductista de la psicología, orientada por Watson. El problema es abordado en muchas otras disciplinas, entre ellas la teoría de control, la teoría de juegos, la investigación de operaciones, la optimización basada en la simulación, estadísticas y algoritmos genéticos y la teoría de la información. Un agente de aprendizaje pasivo tiene una política ﬁja que determina su comportamiento y la primera tarea es aprender las utilidades de los estados o pares estados-acción. Debe considerarse que la utilidad de cada estado es igual a su propia recompensa más la utilidad esperada de sus propios sucesores. Esto signiﬁca que, al ignorarse la conexión entre los estados, la estimación directa de la utilidad conduce a perder oportunidades para el aprendizaje. Un modelo básico de aprendizaje por refuerzo dispone de: 1. un conjunto de estados de entorno; 2. un conjunto de acciones; 3. reglas de la transición entre los estados; 4. reglas que 5. reglas de determinan la recompensa inmediata de una transición; descripción de lo observado por el agente. Un agente de aprendizaje activo debe decidir qué acciones tomar. Para ello, el agente deberá aprender el modelo completo con salidas probabilísticas para todas las acciones, en lugar de aprender solo el modelo para una política preestablecida. En este caso, el agente debe encontrar un adecuado equilibrio entre los esfuerzos que demandan la explotación a ﬁn de maximizar la recompensa y la exploración para maximizar su buen desempeño a largo plazo. Ante este argumento, surge una pregunta inevitable: ¿existe una política de exploración óptima? Y debe decirse que este interrogante ha sido largamente estudiado, sin que tenga una respuesta rápida, sin condicionantes. C O NT I NU A R Lección 4 de 7 Generalización del aprendizaje por refuerzo Hasta ahora se ha asumido que las funciones aprendidas por los agentes se presentan en forma tabular, con un valor de salida por cada tupla de entrada. Se ha comprobado que se trata de un enfoque apropiado ante espacios de estados de tamaño moderado, pero el tiempo de convergencia se incrementa rápidamente a medida que el espacio de estados crece. Esto signiﬁca que no se presentan diﬁcultades en problemas que podrían denominarse de complejidad estándar, pero esta apreciación es totalmente otra ante casos cada vez más corrientes, muy bien representados por juegos como el ajedrez y el backgammon. Aquí los espacios de estados contienen entre 1050 y 10120 estados, lo que hace absurdo su visita para asegurar un buen desempeño del agente. Para abordar estos casos, ha demostrado su conveniencia la aproximación de funciones, pero hay que destacar que la principal ventaja de esta técnica no es lo que parecería obvio. Por el contrario, radica en que brinda al agente la capacidad de generalizar estados que no ha visitado a partir de estados ya visitados. Es decir, la principal ventaja no es la demanda de menos espacio, sino que permite hacer generalización inductiva sobre los espacios de entrada. Tesauro (1992) destaca la potencia de este efecto al aﬁrmar que examinando solo uno de cada 1044 posibles estados del backgammon, es factible aprender una función de utilidad que permite que un programa juegue tan bien como los humanos. Aquí no debe descartarse la posibilidad de que no haya una función que aproxime suﬁcientemente bien la función de utilidad verdadera. C O NT I NU A R Lección 5 de 7 Aplicaciones a juegos y controles de robots La primera aplicación signiﬁcativa del aprendizaje por refuerzo fue a la vez el primer problema de aprendizaje en general, presentándose en el programa que juega al ajedrez desarrollado por Arthur Samuel a partir de 1959. Inicialmente, Samuel utilizó una función lineal ponderada para la evaluación de las posiciones, utilizando hasta 16 términos, con diferencias signiﬁcativas entre su programa y los enfoques de los métodos actuales. A partir de la iniciativa de Samuel, la aplicación de la teoría del aprendizaje por refuerzo a juegos ha mantenido plena vigencia a lo largo de los 64 años de vida de la inteligencia artiﬁcial, estimulando líneas de investigación que hicieron progresos muy signiﬁcativos en el desarrollo de técnicas eﬁcaces de aprendizaje que se extendieron a otros campos del conocimiento. Otro campo de aplicación de signiﬁcativa importancia para el aprendizaje por refuerzo es el de control. Puede citarse como ejemplo característico del aprendizaje por refuerzo al control del llamado “péndulo invertido sobre base móvil”. Consiste en una base que se desplaza y soporta un péndulo invertido, residiendo el problema en el control de la posición del carro de manera que el péndulo se mantenga en el entorno de la posición vertical. El carro dispone de un espacio limitado para su desplazamiento y se considera que este problema ha dado lugar a más de 2000 artículos referidos al aprendizaje por refuerzo y teoría de control. Aquí debe reconocerse que, a diferencia de los problemas tratados hasta ahora, las variables de estado del péndulo sobre base móvil son la posición del carro (x), ángulo del péndulo (θ) y sus derivadas, que son continuas, mientras que las acciones son discretas (función escalón). El primer trabajo sobre aprendizaje que se reﬁere a este problema fue presentado por Michie y Chambers (1968). En dicho trabajo el algoritmo fue capaz de mantener el péndulo vertical por más de una hora. A esto debe agregarse que el algoritmo fue probado controlando una base móvil y péndulo real, no a través de simulación. En la actualidad se ha llegado a lograr equilibrar una base móvil con un péndulo invertido de tres segmentos, absolutamente fuera del alcance de los seres humanos. Desafío propuesto a partir de las notas anteriores Este tercer módulo de la materia se ocupa de los conceptos de aprendizaje y razonamiento, procesos esenciales que respaldan el comportamiento de los seres inteligentes, ya sean seres vivos o entidades artiﬁciales que procuran estar dotadas de esta cualidad. Por lo tanto, son de vital importancia para la inteligencia artiﬁcial. En esta primera lectura, se puso el foco, particularmente, en el aprendizaje, ya que, de no existir esta capacidad, no habría nada sobre que razonar. Cabe aclarar que el tratamiento de estos temas tiene un enfoque inevitablemente introductorio, presentándose los conceptos y deﬁniciones. Su aplicación está reservada a la implementación de los modelos neuronales artiﬁciales, que son el eje de este módulo. Por último, se lo invita a volver sobre las preguntas aquí formuladas y las respuestas propuestas con un espíritu de autocontrol ﬁnal. La intención es estimular una mirada crítica sobre el trabajo realizado desde una posición de mayor conocimiento sobre los temas tratados. Se reitera que estas preguntas tienen como única ﬁnalidad contribuir a que el estudiante compruebe por sí mismo sus conocimientos. No se trata, entonces, de una instancia de evaluación. Las consignas son las siguientes:  1. Ensaye una deﬁnición propia de aprendizaje. 2. Identiﬁque 3. Justiﬁque y describa los tipos posibles de aprendizaje. la formulación del aprendizaje bayesiano y proponga un breve ejemplo numérico acompañado de su solución. 4. Resuma los conceptos de aprendizaje con datos completos, refuerzo activo y pasivo y generalización del aprendizaje. 5. Busque antecedentes sobre el control de un “péndulo invertido sobre base móvil”, seleccione y describa muy brevemente una solución al problema que considere apropiada. C O NT I NU A R Lección 6 de 7 Referencias Platzi. (s.f.). Entiende Naive-Bayes y sus fundamentos de implementación. Recuperado de https://platzi.com/tutoriales/2081-ds-probabilidad/9010- entiende-naive-bayes-y-sus-fundamentos-de-implementacion/ C O NT I NU A R Lección 7 de 7 Descarga en PDF Módulo 3 - Lectura 1.pdf 231.9 KB Razonamiento Razonamiento: conceptos generales Redes semánticas Lógica descriptiva Referencias Lección 1 de 4 Razonamiento: conceptos generales Ya se puntualizó en el módulo 2 que razonamiento es la facultad que permite resolver problemas, extraer conclusiones y aprender de manera consciente de los hechos, estableciendo conexiones causales y lógicas entre ellos. Para tratar a continuación las redes semánticas y la lógica descriptiva es que pondremos la atención en el razonamiento argumentativo y en el lógico. En el primero, la actividad mental se corresponde con la actividad lingüística de argumentar, reconociéndose al argumento como la expresión lingüística de un razonamiento, sin dejar de reconocer que el estudio de los argumentos corresponde a la lógica. En el segundo, a través de un proceso lógico y partiendo de uno o más juicios, se deriva la validez: la veracidad o la falsedad de otro juicio diferente. Normalmente, los juicios en que se basa un razonamiento expresan conocimientos ya adquiridos o considerados como hipótesis. C O NT I NU A R Lección 2 de 4 Redes semánticas Ya fue anticipado (módulo 2) que una red semántica es una forma de representación del conocimiento lingüístico. Para los casos en que no existan ciclos, estas redes pueden ser visualizadas como árboles. Son recursos apropiados para representar mapas conceptuales y mentales, muy utilizados en la inteligencia artiﬁcial. Ya en 1909, Peirce propuso una notación gráﬁca de nodos y arcos que fue denominada “grafos existenciales” y que reconoció como la lógica del futuro. Si bien no se equivocó, hubo que esperar por las primeras redes semánticas, que son atribuidas a Quillian (1968) y Shapiro (1971). Por esta razón pueden considerarse un recurso de representación muy reciente. “Estos esquemas tienen una fundamentación psicológica muy sólida y se han realizado numerosos esfuerzos por llevar a cabo implementaciones importantes basadas en ellas” (EcuRed, s.f., https://bit.ly/3mZg9WB). Desde entonces, se planteó un debate entre los defensores de la lógica y los defensores de las redes semánticas, perdiéndose de vista que las redes semánticas son en realidad una forma de expresión lógica. Estas redes están compuestas por elementos semánticos y sus relaciones, estando estas últimas representadas por líneas o ﬂechas. Las primeras se utilizan en relaciones simétricas y las últimas, en relaciones asimétricas, dando lugar a vínculos orientados. Formalmente, dado un conjunto V de términos y otro conjunto A de relaciones semánticas entre los términos, la red semántica G queda deﬁnida como G = (V, A). Las redes semánticas tienen capacidad para recuperar información y relacionar conceptos. Logran extraer información textual mediante el conocimiento semántico. Por esta razón, las redes semánticas son un modelo ampliamente utilizado en el mundo de la computación, permitiendo eﬁcazmente recuperar información de enormes bases de datos, siendo también muy utilizadas en inteligencia artiﬁcial para representar el conocimiento. Por estos motivos, se ha trabajado mucho sobre ellas y se han abierto numerosas líneas de investigación que arrojaron una variada cantidad de técnicas e implementaciones. Si bien existen diversas variantes de redes semánticas, todas responden a una notación gráﬁca común y los elementos básicos que se encuentran en todos los esquemas son: Estructuras de datos en nodos: representan conceptos. Procedimientos de inferencia que trabajan sobre las estructuras de datos. Aquí es necesario destacar el fuerte vínculo entre los procesos mentales y el lenguaje. Según postula Chomsky, su importancia radica en que a través del lenguaje es posible conocer y comprender muchos de los procesos mentales, puesto que existe una íntima relación del lenguaje, tanto con el pensamiento como con la percepción y el aprendizaje. De este modo, las estructuras cognitivas tales como creencias, opiniones, expectativas, hipótesis, teorías y esquemas, empleadas en la vida cotidiana para interpretar estímulos de manera selectiva, no se limitan al plano cognitivo y se reﬂeja en las acciones. (Vargas Garduño, Méndez Puga y Vargas Silva, 2014, https://bit.ly/3eivQnI). Por esta razón se admite que: Las redes semánticas constituyen un recurso empírico de acceso a la organización cognitiva de los signiﬁcados, a través de los signiﬁcantes empleados, siendo que el universo cognitivo resultante es consecuencia también de aprendizajes sociales. Figueroa (1981) hacen notar que las estructuras semánticas no permanecen inmutables, sino que se van desarrollando y, por ende, se van adquiriendo más relaciones al aumentar los conocimientos generales del individuo, además, también, de actualizarse de acuerdo con la inﬂuencia de la cultura de su entorno y de su propia experiencia de vida. (Vargas Garduño, Méndez Puga y Vargas Silva, 2014, https://bit.ly/3eivQnI). En resumen, puede decirse que las redes semánticas permiten representar relaciones mutuas entre conceptos a través de una estructura de conocimiento que es un modelo cercano al cerebro humano que posibilita hacer deducciones y adquirir nuevo conocimiento. Debe aquí destacarse la herencia de los conceptos más altos en la jerarquía. Como así también, que las redes son un mecanismo de razonamiento. En cuanto a la herencia, es necesario destacar algunas precauciones tales como: 1 No se deben heredar propiedades que produzcan inconsistencias. 2 No heredar propiedades relevantes para una clase, pero no para sus especializaciones. 3 En el caso de herencia múltiple se debe indicar el vínculo de preferencia. En resumen, las ventajas de las redes semánticas son: “Permiten la declaración de importantes asociaciones en forma explícita” (Unidad Educativa Nacional Tena, s.f., https://bit.ly/32pElrP). “Debido a que los nodos relacionados están directamente conectados y no se expresan las relaciones en una gran base de datos, el tiempo que toma el proceso de búsqueda por hechos particulares puede es signiﬁcativamente reducido” (Unidad Educativa Nacional Tena, s.f., https://bit.ly/32pElrP). Y sus desventajas son: “No existe una interpretación normalizada para el conocimiento expresado por la red. La interpretación de la red depende exclusivamente de los programas que manipulan la misma” (Unidad Educativa Nacional Tena, s.f., https://bit.ly/32pElrP). “La diﬁcultad de interpretación a menudo puede derivar en inferencias inválidas del conocimiento contenido en la red” (Unidad Educativa Nacional Tena, s.f., https://bit.ly/32pElrP). “La exploración de una red asociativa puede derivar en una explosión combinatoria del número de relaciones que deben ser examinadas para comprobar una relación, sobre todo si la respuesta a una consulta es negativa” (Unidad Educativa Nacional Tena, s.f., https://bit.ly/32pElrP). “No hay manera de insertar alguna regla heurística para explorar la red de manera eﬁciente” (Unidad Educativa Nacional Tena, s.f., https://bit.ly/32pElrP). Actualmente, se las designa a través del término “redes asociativas”, puesto que no solo son utilizadas para representar relaciones semánticas, sino también para representar asociaciones físicas o causales entre varios conceptos u objetos. C O NT I NU A R Lección 3 de 4 Lógica descriptiva La denominación lógica descriptiva se reﬁere a descripciones de conceptos usados para describir un dominio y también a la semántica que establece una equivalencia entre las fórmulas de lógicas de descripción y expresiones en lógica de predicados de primer orden. Quizás el aspecto más destacable de la lógica descriptiva sea el énfasis que se pone en la maleabilidad de la inferencia. Los problemas se resuelven mediante su descripción y cuestionando si pueden ser incluidos en una de las varias categorías posibles de solución. Desafío propuesto a partir de las notas anteriores Parece importante recordar que este tercer módulo de la materia se ocupa de los conceptos de aprendizaje y razonamiento, procesos esenciales que respaldan el comportamiento de los seres inteligentes, ya sean seres vivos o entidades artiﬁciales que procuran estar dotadas de esta cualidad. Por lo tanto, son de vital importancia para la inteligencia artiﬁcial. En particular, en esta segunda lectura, se puso el foco en el razonamiento, capacidad que complementa el previo aprendizaje, permitiendo la adecuación de este último en función de las necesidades planteadas por el escenario en que se opera. Al igual que en la lectura anterior, aquí cabe aclarar que el tratamiento de estos temas tiene un enfoque inevitablemente introductorio, presentándose los conceptos y deﬁniciones. Su aplicación está reservada a la implementación de los modelos neuronales artiﬁciales, que son el eje de este módulo y serán tratados en las lecturas 3 y 4. Por último, se lo invita a volver sobre las preguntas aquí formuladas y las respuestas propuestas con un espíritu de autocontrol ﬁnal. La intención es estimular una mirada crítica al trabajo realizado desde una posición de mayores conocimientos sobre los temas tratados. Se reitera que estas preguntas tienen como única ﬁnalidad contribuir a que el estudiante compruebe por sí mismo sus conocimientos, no se trata de una instancia de evaluación. Las consignas son las siguientes:  1. Ensaye una deﬁnición propia de razonamiento. 2. Relacione su deﬁnición con los métodos básicos de razonamiento vistos en el módulo 2, lectura 3, y presente conclusiones. 3. Brinde su propia descripción de una red semántica y presente un ejemplo sobre un tema visto hasta ahora en la materia. 4. Interprete y comente las ventajas y desventajas de las redes semánticas. 5. Interprete el concepto de lógica descriptiva. C O NT I NU A R Lección 4 de 4 Referencias EcuRed. (s.f.). Redes semánticas. Recuperado de https://www.ecured.cu/Redes_sem%C3%A1nticas Unidad Educativa Nacional Tena. (s.f.). ¿Qué es una red semántica? Recuperado de http://maryuri1998.blogspot.com/2015/06/a-que-es-una-redsemantica-red.ht Vargas Garduño, M., Méndez Puga, A. M., Vargas Silva, A. (2014). La técnica de las redes semánticas naturales modiﬁcadas y su utilidad en la investigación cualitativa. Recuperado de http://www.memoria.fahce.unlp.edu.ar/trab_eventos/ev.8204/ev.8204.pdf C O NT I NU A R Redes neuronales artiﬁciales: aprendizaje supervisado Redes neuronales: aspectos generales Redes neuronales: fundamentos biológicos Redes neuronales arti ciales: estructuras y clasi caciones Redes neuronales simples de una capa: aprendizaje supervisado Redes neuronales multicapa: aprendizaje supervisado Referencias Descarga en PDF Lección 1 de 7 Redes neuronales: aspectos generales Al intentarse construir máquinas inteligentes surgió, naturalmente, la mente humana como modelo. Por lo tanto, dentro de la inteligencia artiﬁcial resultó obvia la idea de simular directamente el funcionamiento del cerebro en una computadora, lo que justiﬁcó el interés por las arquitecturas basadas en redes neuronales. Estos modelos reciben el nombre de conexionistas. Estas iniciativas referidas a las redes neuronales estuvieron inspiradas en hechos ya conocidos sobre el funcionamiento del cerebro. Entre los precursores del estudio anatómico y neurológico del cerebro se destaca Ramón y Cajal (1900), quién identiﬁcó su estructura en red. Merece también destacarse la contribución de Charles Sherring, en la misma época, por identiﬁcar la presencia de sinapsis en los vínculos entre diferentes células o neuronas. Como se recordará, fueron Warren McCullock y Walter Pitts (1943) quienes desarrollaron un primer modelo formal destinado a representar el comportamiento de las neuronas. Es decir, el primer modelo neuronal artiﬁcial. Sin embargo, este primer modelo neuronal carecía de la capacidad de aprendizaje, una de las principales características de los cerebros de los animales y del hombre. Siete años después, Alan Turing (1950) se anticipó al nacimiento de la Inteligencia Artiﬁcial (1956) al plantear la inquietud sobre la posibilidad que las máquinas piensen, en su famoso artículo Computing Machinery and Intelligence en la revista MIND. Allí propuso el test que lleva su nombre y los principios del aprendizaje automático. También analizó otros aspectos relativos a las capacidades de las máquinas. Poco después, Ross Ashby publicó su libro titulado Design for a Brain (1952), donde presentó los resultados de numerosos experimentos y algunas ideas esenciales que posibilitaron más tarde el desarrollo de redes neuronales artiﬁciales con capacidad de aprendizaje. Frank Rosenblatt, psicólogo estadounidense, estuvo al frente de varias investigaciones importantes, presentando en una de ellas el desarrollo del Perceptrón (1958), un clasiﬁcador binario o discriminador lineal capaz de generar una predicción basándose en un algoritmo que combina los pesos de sus entradas. Para ello, se apoyó en los descubrimientos biológicos de Ramón y Cajal, a los que incorporó las ideas propuestas por MaCulloch y Pitts en el primer modelo neuronal artiﬁcial. En 1969 Minsky y Papert demostraron las severas limitaciones del perceptrón, en ese entonces, el modelo neuronal por excelencia, provocando una gran pérdida de conﬁanza en este campo y desalentando tanto la investigación como su respaldo económico. Ésta recién sería recuperada a principios de los ’80 a partir de las propuestas novedosas de John Hopﬁeld y otros investigadores. C O NT I NU A R Lección 2 de 7 Redes neuronales: fundamentos biológicos El estudio anatómico detallado del cerebro reveló que un ser humano tiene en el orden de 100.000 millones de neuronas con una conectividad media de 10.000. Los elementos principales en una neurona simpliﬁcada son: cabeza, núcleo, axón y dendritas. “Las dendritas… proporcionan área superﬁcial en abundancia para facilitar la conexión con los axones de otras células. Los axones inﬂuyen sobre las dendritas a través de espacios estrechos, una superﬁcie de contacto, conocida como sinapsis. La estimulación de algunas sinapsis hace que las neuronas se disparen al regular la intensidad y naturaleza de la inﬂuencia de una neurona sobre otra”. (Red https://bit.ly/3v5DN6z). Esta acción puede ser de naturaleza excitadora o inhibidora. neuronal, s.f., Figura 1: Esquema simpliﬁcado de una neurona Fuente: elaboración propia. Una neurona no hace nada o produce una salida de potencia completa, por lo que se la reconoce como un dispositivo de todo o nada. Se maniﬁesta como un impulso eléctrico que se desplaza por el cuerpo de la célula, por el axón hacia sus ramiﬁcaciones y se dice, entonces, que la neurona se ha disparado. Figura 2: Pulso de disparo de una neurona Fuente: [Imagen sin título sobre pulso de disparo de una neurona]. (s. f.). Las señales nerviosas son eléctricas en el interior de las neuronas y químicas en su exterior. En este último caso, se basan en el intercambio de neurotransmisores, determinado por la membrana neuronal y los iones presentes a ambos lados de ella. La membrana contiene canales iónicos selectivos al tipo de ion, algunos son pasivos (simples poros en la membrana) y otros activos (poros de apertura selectiva). Los iones son de sodio (Na), potasio (K), calcio (Ca) y proteínas, y cada uno presenta distinta permeabilidad. “En estado de reposo el interior de la neurona permanece cargado negativamente en relación al medio exterior, existiendo una diferencia de potencial de -60 mV” (Hernández Paxtián, 2011, https://bit.ly/3tCPvFl). Cuando se hayan producido suﬁcientes excitaciones, el potencial de la neurona puede elevarse por encima de los -45 mV que es el umbral de disparo. En ese momento se abren bruscamente los canales de sodio, de modo que esos iones (Na+), cuya concentración exterior es alta, ingresan masivamente al interior, provocando una despolarización de la neurona que pasa de -60 mV a +50 mV, volviendo luego a su condición de reposo de -60 mV. Después del disparo, la neurona entra en un período refractario hasta quedar habilitada para un próximo ciclo. Debe observarse que el pulso es digital, se produce al superar el umbral y todos son de la misma magnitud. Las frecuencias de disparo están entre 1 y 100 pulsos por segundo. El desempeño de una sinapsis no corresponde a un valor predeterminado, por el contrario, es variable. Esta plasticidad sináptica es la que determina la capacidad de aprendizaje, que está ampliamente respaldada por evidencias experimentales. A la plasticidad sináptica se suman otras formas de modelado, representado por el establecimiento de nuevas conexiones, eliminación de otras e inclusive muerte neuronal. C O NT I NU A R Lección 3 de 7 Redes neuronales artiﬁciales: estructuras y clasiﬁcaciones Al igual que en los sistemas biológicos, los elementos básicos de los modelos neuronales artiﬁciales son las unidades activas, que se agrupan en conjuntos muy numerosos organizadas en capas, constituyendo un sistema con funcionamiento propio. La información de entrada atraviesa la red neuronal y cada unidad es sometida a operaciones en las que intervienen los valores de entrada y los pesos sinápticos, obteniéndose, así, los valores de salida. Previamente a la salida de cada unidad, hay una función limitadora que, operando con un umbral, modiﬁca el resultado, imponiendo un límite sobre el valor de salida antes de propagarse a otra neurona. Esta función se conoce como función de activación. En resumen, un sistema neuronal artiﬁcial o conexionista está compuesto por los siguientes cinco elementos: un conjunto de unidades neuronales o procesadores elementales; un patrón de conectividad o arquitectura; una dinámica de activaciones; un modo de aprendizaje; un entorno de operación. Las unidades neuronales son dispositivos de cálculo muy simples que operan a partir de los valores de un vector de entrada, los pesos sinápticos, la función de activación y un umbral para determinar el valor de cada salida. Las funciones de activación deﬁnen si los valores de las salidas son discretas o continuas. La arquitectura de la red deﬁne su topología, es decir la forma en que las unidades neuronales son conectadas a sus entradas y la salida a través de los pesos sinápticos. Las conexiones son direccionales, es decir, la información se propaga en un sentido y las unidades se distribuyen en estructuras de agrupamiento denominadas capas. Dentro de cada capa, las neuronas pueden, a su vez, agruparse por aﬁnidad formando clústeres. Al deﬁnir la arquitectura también se asignan los tipos de funciones de activación a las unidades de cada capa o de cada clúster. La dinámica de activación determina la forma en que las neuronas de una red actualizan sus estados: con dinámica síncrona o dinámica asíncrona. En el primer caso, los estados se actualizan en función de un reloj común, realizándose el proceso por capas, desde la entrada a la salida. En el segundo caso, cada unidad actualiza su estado en forma independiente, sin considerar cuando lo hacen las demás. El modo de aprendizaje o entrenamiento establece la forma en que se le asignarán sus valores a los pesos sinápticos de los vínculos entre las unidades neuronales. Como ya fue dicho, esta plasticidad sináptica es la que deﬁne el desempeño de la red ante cierta condición de entrada. Se reconocen los siguientes cuatro modos de aprendizaje. Los primeros dos son considerados básicos: 1 Supervisado: se presenta a la red un conjunto de patrones de entrada y sus correspondientes salidas, ajustándose los pesos sinápticos hasta que el desempeño de la red es el deseado. 2 No supervisado o autoorganizado: solo se presenta a la red el conjunto de patrones de entrada y la red en el proceso de aprendizaje identiﬁca regularidades, realiza agrupamientos (clustering) o estabiliza su salida en torno a cierta condición de entrada. 3 Híbrido: se reúnen en una misma red los dos modos básicos de aprendizaje, los que son aplicados normalmente en diferentes capas de unidades. 4 Reforzado: se encuentra en un punto intermedio entre los dos modos básicos, y el valor de referencia durante el proceso no corresponde a la salida deseada, sino a un índice de rendimiento de la red. El entorno de operación es considerado un elemento propio de la red debido a la alta especialización de estos modelos. Es decir, la red es especíﬁcamente diseñada y entrenada para desempeñar cierta actividad en un entorno de operación muy preciso, por lo que no es trasladable de un escenario a otro. Es trasladable la experiencia en cuanto a la conveniencia de determinada arquitectura para resolver ciertos problemas, pero en modo alguno a la propia red. En la ﬁgura 3 se presenta un esquema con la clasiﬁcación de los principales modelos neuronales según el tipo de aprendizaje y en la ﬁgura 4 se muestran las principales arquitecturas. Figura 3: Clasiﬁcación según modo de aprendizaje Fuente: elaboración propia. Figura 4: Arquitecturas típicas de los principales modelos neuronales Fuente: [Imagen sin título sobre arquitecturas de los nodos neuronales]. (s.f.). C O NT I NU A R Lección 4 de 7 Redes neuronales simples de una capa: aprendizaje supervisado Tal como se anticipó, en la arquitectura de las redes se reconoce la disposición de las unidades en capas y naturalmente los modelos más sencillos son los de una capa. El modelo más simple posible es el de una sola unidad y, obviamente, una capa. Aquí se aprovechará para entrar en detalle con respecto a la función de activación, todavía pendiente de un tratamiento más detallado. Se toma como ejemplo una unidad neuronal (perceptrón) con dos entradas, destinada a reproducir el comportamiento de una puerta “OR”. La pequeña red y las condiciones a ser reproducidas se muestran en la ﬁgura 5. Figura 5: Modelo de un perceptrón que representa una compuerta “OR” Fuente: elaboración propia. Figura 6: Interpretación de la compuerta Fuente: [Imagen sin título sobre interpretación de la compuerta]. (s.f.). Obsérvese que en lugar de ingresarse el valor de θ se incorpora un peso sináptico adicional (W0) que multiplica a una entrada de referencia (1). La ﬁnalidad es ajustar el valor del escalón conjuntamente con los pesos sinápticos, simpliﬁcándose el algoritmo. El entrenamiento del perceptrón para que se desempeñe como una compuerta “OR” implica los siguientes pasos: Tabla 1: Ciclos de ajuste Fuente: [Imagen sin título sobre Ciclos de ajuste]. (s.f.). Un cuarto ciclo de ajuste demuestra que las cuatro entradas dan por resultado un error nulo, dejándose al lector su comprobación. Esto signiﬁca que, con el ajuste realizado en los pesos sinápticos, el perceptrón tiene el mismo desempeño que una compuerta “OR”. Obtenidos los pesos, el próximo paso es la interpretación de los resultados. A partir de la interpretación gráﬁca del comportamiento de la compuerta, puede escribirse: La función de activación utilizada es binaria, acorde al tipo de problema. Puede ocurrir que sea necesaria una función también binaria, pero de evolución suave entre los dos valores extremos (derivable) o una función continua ya que la salida del modelo representará valores reales. En el primer caso se trata de una unidad perceptrón y en el segundo de una unidad adaline (adaptative linear element). Las funciones de activación más usadas son: Figura 7: Funciones de activación Fuente: [Imagen sin título sobre Funciones de activación]. (s.f.). Con el ﬁn de completar la presentación del perceptrón operando individualmente, se recurre a un caso muy simple pero efectivo y muy útil, que se presenta a continuación. El problema se reﬁere a la necesidad de reconocer el valor que representan las teclas presionadas en un “pad numérico” a partir de considerar en cada caso la ﬁla y columna a las que pertenecen. Es el caso típico de reconocimiento de teclas en todo teclado. En la ﬁgura 8 se presenta el esquema de este caso y un detalle de los valores que adoptan las señales de entrada en cada caso. Figura 8: Detalle de señales de entrada originadas en el teclado Fuente: [Imagen sin título sobre señales originadas en el teclado]. (s.f.). Como puede apreciarse, se trata de ocho señales (identiﬁcadas entre “0” y “7”) que toman valores de “0” o “1” según cada tecla se encuentre libre (“0”) o presionada (“1”), son afectadas por los correspondientes pesos sinápticos y procesadas por el perceptrón. La función de activación debe necesariamente ser lineal para posibilitar salidas entre “0” y “9”, es decir, valores enteros. Una vez planteado el problema, es necesario emplear el procedimiento ya estudiado en el caso de la compuerta “OR” para ajustar los pesos sinápticos, que implica que el modelo aprenda a comportarse según su ﬁn especíﬁco. Otro aspecto a considerar es el factor de aprendizaje “α”, que por esperarse una salida continua debe tener un valor apropiado que modere el proceso de ajustes de pesos. Esta unidad toma el nombre de adaline. Como puede anticiparse, dada la cantidad de condiciones entrada-salida previstas (una por cada tecla), cada ciclo de ajuste debe contemplar diez ajustes de pesos y estos ciclos deben repetirse hasta alcanzar el desempeño esperado. Naturalmente, este proceso no es apropiado para ser realizado manualmente, por lo que es conveniente deﬁnir un algoritmo que realice los sucesivos ciclos de ajuste. Este debe operar hasta que el error medio cuadrático de un ciclo sea menor de un valor preﬁjado o se alcancen condiciones que demuestren la inutilidad de proseguirlo. Estas condiciones son normalmente dos: por exceder una cantidad de ciclos considerada límite o por comprobarse la estabilización del error en un valor excesivo. Estas son las habituales. Para interpretar con facilidad el proceso de entrenamiento es muy conveniente representarlo con un gráﬁco. Normalmente, se expresa en la abscisa la cantidad de ajustes y en las ordenadas el error obtenido, que suele ser acompañado de la representación de un vector que representa a los pesos (raíz cuadrada de la suma de los cuadrados de los pesos sinápticos). Esta curva pone de maniﬁesto la convergencia del proceso hacia la solución, mostrando una evolución asintótica de la curva “pesos”. En la Figura 9 se presenta una aplicación de desarrollo del autor especíﬁca para este ﬁn. La línea descendente muestra la evolución del error y la curva color rojo el módulo del vector “pesos”. En la primera ventana se muestran los valores de referencia y los valores calculados para las salidas. En la segunda ventana se presentan los ocho pesos ajustados: pesos sinápticos de las entradas y umbral de activación. Para el proceso de entrenamiento se hicieron cien ciclos de ajustes de pesos. Figura 9: Representación del proceso de entrenamiento de un perceptrón y resultados Fuente: elaboración propia. Puede observarse que el ajuste de pesos tiene un comportamiento claramente asintótico, lo que se comprueba tanto en la evolución del error como en el módulo del vector pesos. Se invita al lector a comprobar que los pesos obtenidos satisfacen la tabla de entradas presentada juntamente con el esquema del modelo en la ﬁgura 8. Tomando como ejemplo a las teclas “3” y “7”, puede comprobarse que a partir de sus entradas activas se llega a las siguientes expresiones: y = wo + w1.x1 + w5.x5 = 1,28766 – 0,71744 + 2,43178 = 3,00200 ≈ 3 y = wo + w3.x3 + w7.x7 = 1,28766 + 5,28134 + 0,43290 = 7,00190 ≈ 7 Si el problema fue resuelto correctamente, la comprobación debería poder extenderse a cualquiera de los dígitos, obteniéndose similares resultados. Esta comprobación invita a plantear el problema en conjunto, de manera matricial. Para ello hay que reconocer una matriz principal “de activación” [X] con unos y ceros, que deﬁnen las señales que afectan a cada dígito. Se completa con un vector [W] de pesos y un vector término independiente [V] que contendrá los valores de las teclas. Se obtiene así: [X]. {W} = {V} Es importante observar que el vector {X} tiene 10 elementos, el vector {V} 8 elementos y [W] es una matriz de 10 ﬁlas y 8 columnas. Es decir que, tal como está planteado, se trata de un sistema de diez ecuaciones y ocho incógnitas, que está sobredeﬁnido. A partir del algebra matricial se puede hacer lo siguiente: [X]T. [X]. {W} = [X]T.{V} {W} = ([X]T.[X])-1. [X]T.{V} {W} = [X]†{V} donde [X]†= ([X]T.[X])-1. [X]T La matriz [X] † es la psudoinversa de [X], una generalización de la matriz inversa de [X], de tal forma que [X] † [X] = [I] y [X] † = [X]-1 cuando la matriz es cuadrada. A través de ese simplísimo razonamiento, se llegó a plantear la pseudoinversa de Moore (1920) y Penrose (1955), lo que permite obtener para un sistema sobredeﬁnido una solución equivalente a la de mínimos cuadrados, una solución óptima. Se trata de una herramienta muy valiosa para la inteligencia artiﬁcial y para resolver una enorme cantidad de problemas, por lo que resulta sorprendente comprobar que todavía hoy sea difícilmente incluida en los programas de Álgebra. A pesar de haber sido planteada hace ya 100 años. Para respaldar este alegato, se resolverá el cálculo del vector pesos que deﬁne el modelo del pad numérico por este medio. Se invita al lector a obtener [X] † a través de alguno de los numerosos online calculators disponible en la web o, mejor aún, a que implemente el algoritmo de cálculo de la pseudoinversa de una matriz. Los resultados parciales no se presentan aquí por razones de espacio. Finalmente se obtendrá: {W} = [X]†{V} {W}T = {-1,1588 1,8415 4,8418 -3,1590 1,7889 0,7905 -0,2109 2,3685} Como puede fácilmente comprobarse, el vector {W} ahora obtenido es diferente del calculado a través del modelo neuronal. Sin embargo, tomando el mismo ejemplo de las teclas “3” y “7”, puede también comprobarse que a partir de sus entradas activas se obtienen los valores correctos: y = wo + w1.x1 + w5.x5 = 2,3685 – 1,1588 + 1,7889 = 2,9986 ≈ 3 y = wo + w3.x3 + w7.x7 = 2,3685 + 4,8418 - 0,2109 = 6,9994 ≈ 7 Esto signiﬁca que el problema planteado no tiene una solución única, lo que era predecible por disponerse de más ecuaciones que incógnitas. La solución obtenida a través del modelo neuronal depende de los valores de los pesos iniciales, que son aleatorios. Por lo tanto, el proceso converge a un error mínimo local que satisface las condiciones requeridas. Por el contrario, la solución algebraica satisface globalmente la condición planteada con mínimos cuadrados, por lo que es óptima. C O NT I NU A R Lección 5 de 7 Redes neuronales multicapa: aprendizaje supervisado Cuando el problema conduce a sistemas de ecuaciones algebraicas que no son linealmente independientes o responde a modelos matemáticos complejos, queda fuera del alcance de un perceptrón simple. En esos casos, se utilizan varias unidades dispuestas en dos o más capas, asignando a las unidades de las capas funciones de activación continuas: sigmoideas y/o lineales. En la ﬁgura 10 se presenta un ejemplo de red multicapa de perceptrones. Figura 10: Modelo multicapa y relaciones entre entradas, pesos y salidas Fuente: [Imagen sin título sobre modelo multicapa]. (s.f.). La técnica de entrenamiento de estas redes fue propuesta por Rumelhart (1986) y su nombre (backpropagation) proviene de la necesidad de ajustar los pesos desde las unidades de salida hacia las de entrada, de manera de distribuir las correcciones en proporción a las contribuciones al error que ha tenido cada una. La propiedad que exhiben las redes de perceptrones, con estructuras de por lo menos tres capas, de ser capaces de reproducir cualquier función genérica continua fue formalmente demostrada por Kolmogorov y otros varios investigadores. Los detalles de esta técnica quedan fuera del alcance del curso. Para ilustrar su uso se presenta un ejemplo muy simple, en el que el problema está representado por un sistema de ecuaciones lineales, pero las mismas no son linealmente independientes, por lo que exceden las posibilidades de un perceptrón. Se trata de la necesidad de identiﬁcar el número representado por un dígito luminoso de “siete segmentos” a partir de los elementos activados, tal como se muestra en la ﬁgura 11. Figura 11: Esquema de la representación del dígito de siete segmentos Fuente: [Imagen sin título sobre esquema de representación del dígito siete]. (s.f.). El “aprendizaje” del modelo consiste en el ajuste de sus pesos, para lo cual debe deﬁnirse primero su arquitectura. Se sabe que se trata de ocho entradas, una de ellas correspondiente al escalón de activación, y una salida continua en el rango [0...9]. Luego la red tendrá siete entradas y una unidad en la capa de salida. Se opta por una capa oculta a la que se le asigna cinco unidades con función de activación sigmoidal y función lineal para la unidad de salida. Se propone un factor de aprendizaje inicial (α) pequeño y se ajusta su valor conforme a los resultados obtenidos, hasta alcanzar un desempeño apropiado (ver ﬁgura 12). Figura 12: Proceso de entrenamiento de una red de perceptrones multicapa Fuente: elaboración propia. Se muestran dos procesos de entrenamiento que solo diﬁeren en los valores iniciales (aleatorios) de los pesos. Las curvas verde y azul representan el error en cada ciclo, mientras que las curvas marrón y roja representan el módulo del vector “pesos”. El comportamiento asintótico de las cuatro curvas demuestra un proceso de entrenamiento sin diﬁcultades. Como puede observarse en la ventana superior, el máximo error cometido es del 0,013% y corresponde a la deﬁnición del “1”. En la ventana inferior se muestran los pesos, que corresponden a las ocho entradas que impactan sobre las cinco unidades de la capa oculta y los seis pesos que impactan sobre las salidas de la capa oculta y entrada a la unidad de la capa de salida. Un total de 46 pesos cuyo ajuste demandó 500 ciclos, a partir de lo cual el ajuste en los pesos era insigniﬁcante. Una vez entrenado, el modelo posibilita la determinación del valor mostrado por el dígito a partir de los segmentos activados. Una forma no convencional de ver lo que está sucediendo, a través de un cálculo que incluye valores de entrada y pesos sinápticos. En los casos en que el proceso de entrenamiento no tenga el desempeño exitoso aquí descripto, se deben explorar variantes en la arquitectura de la red, probando con diferente cantidad de unidades en la capa oculta. Si el problema persiste habrá que incorporar una nueva capa oculta, lo que es frecuente en el caso de la representación de funciones muy complejas. Esto obliga a ensayar con diferente cantidad de unidades para cada capa y probar otras funciones de activación. Y en cada caso hay que variar el factor de aprendizaje. Un proceso muy lento y laborioso que no reconoce recomendaciones deﬁnitivas y se apoya en la experiencia y en un trabajo muy ordenado. Debe tenerse aquí en cuenta que estos entrenamientos requieren muchos miles de ciclos de ajuste, motivo por el cual su representación gráﬁca es indispensable para una correcta interpretación de su desempeño. Desafío propuesto a partir de las notas anteriores Esta lectura se ocupó del aprendizaje supervisado en el contexto de redes neuronales artiﬁciales hacia adelante y no recurrentes. Estas redes incluyen a las denominadas multicapas de perceptrones, adecuadas para representar funciones matemáticas altamente complejas que, sin duda alguna, son las más difundidas. Representaron la oportunidad para tomar contacto con un proceso de aprendizaje que, a partir del ajuste progresivo de una gran cantidad de parámetros, hace posible la réplica de comportamientos muy variados y complejos. Fueron los primeros modelos numéricos inspirados en los descubrimientos de Ramón y Cajal, y también las que fueron descaliﬁcadas a partir de la evaluación del desempeño de una de sus formas más simples: una unidad o perceptrón. Cuando esta red reproduce el desempeño de sistemas de ecuaciones lineales, los procesos de entrenamiento son muy sencillos y el problema puede también ser resuelto algebraicamente a través de su matriz pseudoinversa: recurso muy efectivo y sorprendentemente poco difundido. Por lo expuesto, estos modelos simples de entrenamiento supervisado son muy apropiados para su abordaje a través de algún algoritmo de desarrollo propio. Si bien la web tiene inﬁnidad de pequeñas aplicaciones con este ﬁn, se invita al lector (futuro profesional de sistemas) a desarrollar e implementar sus propias herramientas. Se presenta una oportunidad que debe ser aprovechada. El panorama cambia al ingresar al campo de las redes multicapa. Si bien sigue siendo muy recomendable que hagan sus propios desarrollos, el algoritmo backpropagation no es simple y no alcanzamos a presentarlo en el curso. La inquietud queda planteada y cada uno evaluará la conveniencia de hacerlo. Por último, se lo invita a volver sobre las preguntas aquí formuladas y las respuestas propuestas con un espíritu de autocontrol ﬁnal. La intención es estimular una mirada crítica al trabajo realizado desde una posición de mayores conocimientos sobre los temas tratados. Se reitera que estas preguntas tienen como única ﬁnalidad contribuir a que el estudiante compruebe por sí mismo sus conocimientos, no constituyen una instancia de evaluación. Las consignas son las siguientes:  1. Revise la clasiﬁcación de los modelos neuronales para luego identiﬁcar y justiﬁcar la forma en que queda encuadrado el perceptrón y adaline. 2. Haga lo mismo con otros modelos conocidos como “de aprendizaje supervisado”. 3. Identiﬁque los componentes básicos de una unidad neuronal artiﬁcial y los elementos de la neurona biológica. 4. Identiﬁque los problemas que pueden ser resueltos por una unidad neuronal simple y los que quedan fuera de su alcance. Justiﬁque. 5. Identiﬁque los problemas que están al alcance de ser resueltos por la pseudoinversa de la matriz principal del sistema. Justiﬁque. C O NT I NU A R Lección 6 de 7 Referencias Hernández Paxtián, Z.J. (2011). Biología + electrónica: ¿es posible replicarnos? Recuperado de https://www.rics.org.mx/index.php/RICS/article/view/12/97#:~:text=La%20u ni%C3%B3n%20entre%20dos%20neuronas%20se%20denomina%20sinapsis. &text=En%20estado%20de%20reposo%20el,2001%3B%20Stratton%2C%2019 84). Red neuronal. (s.f.). Deﬁnición de red neuronal. Recuperado de https://sites.google.com/site/inteligenciascarol/red-neuronal? tmpl=%2Fsystem%2Fapp%2Ftemplates%2Fprint%2F&showPrintDialog=1#:~: text=Un%20ax%C3%B3n%20se%20deﬁne%20como,los%20axones%20de%20 otras%20neuronas. C O NT I NU A R Lección 7 de 7 Descarga en PDF Módulo 3 - Lectura 3.pdf 933.9 KB Redes neuronales artiﬁciales: aprendizaje no supervisado Redes neuronales arti ciales: conceptos de aprendizaje no supervisado Redes neuronales arti ciales: modelo de Hop eld Modelo de Hop eld: aprendizaje de la red Modelo de Hop eld: limitación, función energía y ejemplos Video conceptual Referencias Revisión del módulo Descarga en PDF Lección 1 de 8 Redes neuronales artiﬁciales: conceptos de aprendizaje no supervisado Habiendo estudiado las redes neuronales artiﬁciales de aprendizaje supervisado en la lectura anterior, el foco pasará ahora a las redes de aprendizaje no supervisado, también llamadas autoorganizadas. Tal como su nombre indica, se caracterizan por un entrenamiento en el que, asociados a cada patrón de entrada, no se presentan salidas-objetivos. En este caso, la red proporcionará a partir de un proceso interno un resultado que será consecuencia de las relaciones de similitud existentes entre sus patrones de entrada. Es así que “durante el proceso de aprendizaje la red autoorganizada debe descubrir por sí misma rasgos comunes, regularidades o correlaciones entre los datos de entrada e incorporarlos a su estructura interna a través de los pesos sinápticos” (Valera, Viloria, Pineda y Ferrer, 2019, https://bit.ly/3ajpnYH). Es decir, durante el proceso de aprendizaje, los pesos y umbrales de la red son modiﬁcados únicamente en respuesta a sus propias entradas. En este tipo de aprendizaje se destacan fundamentalmente dos tipos de redes: las redes de Kohonen, caracterizadas como mapas autoorganizados o de aprendizaje competitivo y las redes de Hopﬁeld, caracterizadas como redes totalmente recurrentes. Estas últimas son las que se tratarán en el resto de la lectura. Entre las principales aplicaciones de estos modelos pueden citarse el agrupamiento de patrones (clustering), búsqueda e identiﬁcación de imágenes, reconocimiento de voz, optimización y resolución de problemas combinatorios. C O NT I NU A R Lección 2 de 8 Redes neuronales artiﬁciales: modelo de Hopﬁeld La red autoasociativa más característica es la de Hopﬁeld, que tiene entre sus aplicaciones más divulgadas el reconocimiento de imágenes. Fue presentada en 1982 por John Hopﬁeld como una propuesta para un nuevo enfoque tendiente a modelar el comportamiento de la mente humana. Una de las novedades de este modelo conexionista fue la realimentación total de las salidas hacia las entradas. Es así que esta red consiste en una sola capa de células donde todas ellas están en contacto con las entradas y con las salidas, siendo simétricos los vínculos entre unidades. Asimismo, la salida de cada unidad actúa sobre todas las otras células (realimentación), excepto sobre sí misma, lo que lleva a que la matriz de pesos tenga una diagonal nula. Figura 1: Modelo de Hopﬁeld y cálculo de salidas recurrentes Fuente: [Imagen sin título sobre el modelo de Hopﬁeld]. (s.f.). La red de Hopﬁeld y su arquitectura tienen, además, las siguientes características: Como ya fue anticipado, se trata de una red recurrente de memoria asociativa, direccionable por contenido. La red es recurrente porque el vector de salida en un instante es tomado como entrada de las unidades en el instante siguiente. El proceso se reitera hasta que se alcanza un estado de equilibrio en el que la salida y la entrada coinciden. Es éste el estado que toma como salida de la red. Las memorias direccionables por contenido recuperan la información almacenada a partir de presentarles una entrada parcial o deteriorada. Las unidades son elementos biestables, capaces de adoptar dos estados posibles, caracterizados como {1, -1} o {1, 0}. Sus pesos son calculados matricialmente a partir de la carga de patrones, no siendo necesario un proceso iterativo. Se trata de redes muy tolerantes a errores. El aprendizaje de la red consiste en ajustar los valores de pesos de las neuronas de manera que los posibles estados de equilibrio de la red representen los patrones que se pretende almacenar. Almacenamiento de imágenes: entrenamiento El procedimiento de almacenamiento de imágenes en la red responde a los siguientes pasos: Se comienza por establecer la dimensión (cantidad de pixeles) de la superﬁcie sobre la que se representarán las imágenes. Los “pesos” sinápticos de la red se obtienen a partir de un procedimiento matricial en el que intervienen los patrones (imágenes) a ser “almacenadas”. En el modelo se incorporan las sucesivas imágenes sumando las matrices de pesos resultantes de cada una. Existe una limitación en cuanto a la cantidad de imágenes toleradas. La superación de ese límite trae problemas en la recuperación. Almacenamiento de imágenes: recuperación Una vez que los patrones o imágenes han sido almacenados, el proceso de recuperación es el siguiente: Para la consulta, se expone a las entradas a la red una parte de los datos de la imagen deseada. A partir de esa entrada, se desarrolla un proceso de ajustes sucesivos hasta que la salida se estabiliza (ver ﬁgura 1). A lo largo de este proceso el valor de la función “energía” debería tender a un mínimo. Si la imagen ingresada no se encuentra excesivamente distorsionada, lo normal es que, al alcanzar la red, la condición de estabilidad la haya recuperado en su salida. Características a ser consideradas 1 Para que la red de Hopﬁeld funcione eﬁcazmente como memoria asociativa debe ser un sistema globalmente estable, es decir, ser capaz de alcanzar estados de equilibrio. 2 En el caso de la red de Hopﬁeld, la condición de convergencia sería que la matriz W, formada con los vectores de peso de la red, sea simétrica y deﬁnida positiva. 3 Exigir que la matriz sea deﬁnida positiva requiere que todos los elementos de su diagonal principal sean positivos. Esto signiﬁca que todas las neuronas tengan autoconexión excitatoria, lo cual no está previsto en el esquema de la red de Hopﬁeld. 4 Para este caso en el que los elementos de la diagonal principal son nulos, la red puede no ser globalmente estable, a pesar de la simetría de la matriz. En este caso, la red de Hopﬁeld puede fallar convergiendo a un punto ﬁjo o presentar un ciclo de período 2. 5 La forma de garantizar la estabilidad global de un sistema dinámico es poder asegurarle la existencia de una función de Lyapunov. 6 La consecuencia de asegurar esta condición es que el número de patrones que se pueden almacenar eﬁcazmente es una fracción reducida de la dimensión de la red. 7 La cantidad de patrones almacenables depende de la forma de entrenamiento, que se tratará a continuación. C O NT I NU A R Lección 3 de 8 Modelo de Hopﬁeld: aprendizaje de la red Para el aprendizaje de la Red de Hopﬁeld, es decir la realización de la carga de imágenes que luego serán recuperadas a partir de una imagen parcial o deteriorada, se dispone de dos técnicas que son: Hebb y pseudionversa. Figura 2: Técnicas Fuente: [Imagen sin título sobre técnicas]. (s.f.). Cualquiera sea el procedimiento, se reconoce al modelo caracterizado por la ﬁgura mostrada, en la que {X} representa el vector de entrada; {y}, el vector ﬁnal de salida; y [W], la matriz de pesos del sistema. Los aspectos generales de ambas técnicas de entrenamiento son las siguientes: El vector {x} representa un patrón que incide sobre la red y el vector {y}, su salida. Los vectores de los patrones deben cumplir diferentes condiciones según el método de entrenamiento empleado. Se incluye la contribución de todos los patrones (“q”) a ser almacenados. Se resta la matriz identidad para que las unidades no se realimenten a sí mismas. En la consulta, cuando el proceso se estabiliza, la salida debe llegar a ser igual a la entrada, es decir {x} = {y}. Características del entrenamiento de Hebb Fue tradicionalmente la técnica de entrenamiento adoptada por John Hopﬁeld (1982) y originalmente la más difundida. Se debe a una propuesta de Hebb de 1949. Los vectores de los patrones de entrada deben ser ortogonales entre sí. Se obtiene la matriz de pesos que corresponde a cada patrón “k”: [W] k = {X}k.{X}kT Se anula la diagonal de la matriz de pesos restando la matriz identidad: [W]k = {X}k.{X}kT - [I] Se suman las matrices de los “q” patrones a ser almacenados: [W] = ∑ [W]k, k = 1 … q. La cantidad de patrones “q” que pueden ser almacenados está limitada a un número bastante inferior a su dimensión “n”, donde “n” representa la cantidad de neuronas. La relación límite es α = q/n < 0,14. Una cantidad mayor de patrones pueden provocar que la red no se estabilice en ninguno de ellos y produzca una salida diferente de los patrones registrados en la etapa de aprendizaje. Esta es una limitación seria del modelo, ya que para reducir este riesgo se está obligado a disponer de una cantidad muy grande de unidades “n”. Solo puede garantizarse que el proceso de convergencia asocie correctamente la salida con su entrada si esos patrones almacenados son todos ellos ortogonales entre sí, es decir que {x} k.{ x}j = 0 ; para k, j = 1,…,q y k ≠ j. Una condición próxima a la ortogonalidad se alcanza cuando el número de componentes diferentes en dos vectores es igual o mayor a la mitad de “n”. Características del entrenamiento óptimo (pseudoinversa) El uso de la matriz pseudoinversa en el modelo de Hopﬁeld permite un entrenamiento más efectivo. Cabe acotar que el cálculo de la matriz de pesos a través de la pseudoinversa fue un aporte de L. Personnaz (1986), con gran impacto en las posibilidades que ofrece este modelo. Con ella se supera la necesidad de la ortogonalidad de los patrones, ya que solo basta que estos sean linealmente independientes. La cantidad total “q” de patrones que son almacenables aumenta con respecto a las unidades presentes en la red, llegando a q ≤ 0,5 n. Con algunas variantes especiales, esta técnica puede llevar a capacidades de almacenamiento muy elevadas, alcanzándose un máximo de q = 2n. A los vectores patrón se los ordena en una matriz: [U] = [ {X1}, {X2}, … {Xp}]. Cuando la salida de la red esté estabilizada se tendrá: [W] [U] = [U]. De aquí puede demostrarse (no se lo hará aquí) que: [W] = [U] ([U]T [U])-1[U]T. En forma resumida: [W] = [U] [U] † , donde [U] † = ([U]T [U])-1[U]T es la pseudoinversa de [U], ya presentada en la lectura anterior. C O NT I NU A R Lección 4 de 8 Modelo de Hopﬁeld: limitación, función energía y ejemplos Una de las principales limitaciones del modelo de Hopﬁeld es la referida al espacio de memoria necesario para implementar la red. Supóngase el tratamiento de una imagen de N x N pixels. La correspondiente red de Hopﬁeld que pueda procesarla requerirá N x N neuronas, y debido a su conexionado extensivo, una matriz de pesos W de orden p = N x N. Es decir que, para una imagen de N x N neuronas, es necesaria una matriz de N2 x N2 pesos. Pasando a un ejemplo numérico para ver el problema con mayor claridad, a una imagen de 100 x 100 pixeles le corresponde una matriz de pesos de orden p = 1002, lo que implica una matriz con 108 = 100.000.000 pesos, posiciones que representan las incidencias de las conexiones de todas las entradas entre sí. Modelo de Hopﬁeld: función energía Los estados de la red quedan deﬁnidos por la polaridad de sus “n” unidades y pueden ser asociados a una función “energía”, que para cada uno de los “q” patrones almacenados alcanza un valor extremo. Se habla de función energía por la similitud con la expresión a la de la energía cinética. El valor de energía al que convergerá la salida de la red dependerá del vector de entrada usado en cada caso y en coincidencia con cada patrón almacenado, la curva de la función energía presenta un valor mínimo local. En la ﬁgura 2, se representa la función energía, destacándose que pasa por valores mínimos cada vez que los componentes de {x} coinciden con un patrón almacenado, lo que orienta el proceso de ajustes e identiﬁcación de esas condiciones. Figura 3: Evolución de la función energía Fuente: [Imagen sin título sobre evolución de la función energía]. (s.f.). A efectos de facilitar la interpretación del problema, se presenta en la ﬁgura 3 la superﬁcie idealizada de la función energía en el hiperespacio y un esquema que muestra la aproximación al punto mínimo a medida que el ajuste de pesos perfecciona el modelo hasta coincidir con el patrón almacenado en la red. Figura 4: Representación de la convergencia durante el ajuste de los pesos de la red Fuente: [Imagen sin título sobre la convergencia durante el ajuste de los pesos de la red]. (s.f.). Modelo de Hopﬁeld: aplicación a optimización combinatoria Se reﬁere a problemas en los que es preciso encontrar por similitud el mínimo de una función que tiene argumentos discretos, en cantidad ﬁnita o eventualmente numerable. La diﬁcultad fundamental es el diseño de una función de energía que se ajuste a las condiciones de estabilidad global de la red de Hopﬁeld y cuyos puntos de mínimo coincidan con los de la función a minimizar. Un ejemplo de aplicación es la búsqueda del camino mínimo entre dos puntos en una cierta red de comunicaciones, que es llamado “problema del viajante de comercio” o “TSP” (Traveling Salesman Problem). Este problema fue abordado con el modelo de Hopﬁeld a partir de una iniciativa de Hopﬁeld y Tank (1985). Modelo de Hopﬁeld: ejemplo básico Para ilustrar el proceso de almacenamiento y posterior identiﬁcación de dos patrones muy simples que son representados mediante cuatro píxeles (ver ﬁgura 5), se determinará la matriz de pesos y posteriormente se procederá a exponer a la red a una entrada incompleta. Para facilitar el seguimiento del ejemplo, se utiliza el entrenamiento de Hebb. Figura 5: Ejemplo de modelo de Hopﬁeld Fuente: [Imagen sin título sobre el modelo de Hopﬁeld]. (s.f.). En este ejemplo se recurrió a un caso muy sencillo para demostrar la posibilidad de identiﬁcar una imagen almacenada a partir de la disponibilidad de una parte de la misma. Modelo de Hopﬁeld: otros ejemplos A continuación, se usará una pequeña aplicación de desarrollo propio, destinada a ﬁnes académicos, que permite trabajar sobre el modelo de Hopﬁeld considerando tanto el entrenamiento de Hebb como el de la matriz pseudoinversa. Opera sobre un área gráﬁca de 10 pixeles de lado, es decir 100 puntos, lo que implica un total de 10.000 pesos sinápticos, que descontando los 100 pesos nulos de la diagonal resultan 9.900 pesos activos. En la red se han cargado 9 símbolos, incluyendo los dígitos “0”, “1”, “4”, “7”, “9”, los corchetes y otros. Como primer caso se busca recuperar el número “7”, dañado con 55% de defectos y 17% de ruido (ﬁgura 6). Se consideran defectos a las alteraciones de la imagen principal evaluada (“7”) y ruido a las alteraciones en el resto de la superﬁcie, es decir, las que no afectan la imagen principal. Figura 6: Recuperación de un símbolo “7” por la pseudoinversa Fuente: [Imagen sin título sobre recuperación de un símbolo]. (s.f.). Obsérvese que la “energía” cambió su valor a medida que la imagen se perfeccionó en cada ciclo de cálculo y progresivamente se eliminó el ruido hasta alcanzar un mínimo al hallarse el patrón. A continuación, se usará la misma aplicación procurando recuperar un número “1” que tiene otro tipo de defecto: el 40% de sus puntos desplazados de la posición correcta. Apréciese que, si bien no parece haber un proceso deﬁnido, en los últimos ajustes se corrigen puntos aislados a partir de una imagen que ya está identiﬁcada y estabilizada (ﬁgura 7). Figura 7: Recuperación de un símbolo “1” por la pseudoinversa Fuente: [Imagen sin título sobre recuperación de un símbolo]. (s.f.). No hay, sin embargo, reglas deﬁnitivas que permitan anticipar el esfuerzo que la identiﬁcación de cierto patrón pueda demandar. A continuación, se presentan tres casos con el número 1: en el primero (ﬁgura 8) el número “1” de entrada a la red está aún más distorsionado que en el caso anterior, con un 52 % de puntos desplazados. Nuevamente se utiliza el método de la pseudoinversa y sorpresivamente la imagen quedó limpia en un solo ciclo de ajuste. En el segundo caso al mismo número “1” (ﬁgura 9) se le “ensucia” el fondo con una cantidad de puntos con ruido (25%) igual a la cantidad de puntos de la imagen. El 50% restante mantiene el fondo. Lo sorpresivo es que aquí se emplea el entrenamiento de Hebb, teóricamente menos efectivo, y el fondo es limpiado de ruido en un solo ciclo. En este caso, se cargaron solo cinco patrones (“1”, “4”, “7”, “\” y “≡”) para asegurar una mayor ortogonalidad entre las imágenes. Finalmente, en el tercer caso, se resolvió el mismo problema por la pseudoinversa, demandando también un solo ciclo (ﬁgura 10). Figura 8: Recuperación de un símbolo “1” distorsionado por la pseudoinversa Fuente: [Imagen sin título sobre recuperación de un símbolo]. (s.f.). Figura 9: Recuperación de un símbolo “1” distorsionado por la pseudoinversa Fuente: [Imagen sin título sobre recuperación de un símbolo]. (s.f.). Figura 10: Limpieza de un símbolo “1” con ruido por pseudoinversa Fuente: [Imagen sin título sobre recuperación de un símbolo]. (s.f.). Los ejemplos presentados y otros similares (no incluidos por razones de espacio) hicieron posible la obtención de conclusiones que se convierten en recomendaciones para los que quieran explorar este tema. Son las siguientes: Una vez cargados los patrones, es recomendable hacer consultas a partir del ingreso de las imágenes intactas de los mismos patrones. En especial si se va a utilizar Hebb. Es la forma de asegurar que los patrones presentan la necesaria ortogonalidad. Pudo apreciarse que en las consultas las redes pueden enfrentar exitosamente diferentes problemas: imágenes dañadas (con falta de información), ﬁguras distorsionadas, presencia de ruido o una combinación de ellas. Los menores detalles pueden ser la causa de los problemas. Se recomienda, entonces, ser minucioso. En los procesos de consultas exitosas, en general, la imagen converge rápidamente a la forma básica buscada y después se completa en sus detalles y se elimina el ruido. Por el contrario, cuando el ciclo es divergente la imagen tiene clara tendencia a una ﬁgura totalmente inesperada y luego el proceso queda atrapado allí, sin salida. No obstante, debe tenerse en cuenta que se trata de una mirada muy introductoria y superﬁcial a todo un mundo en el que se viene avanzado mucho y que da lugar a una gran especialización en diferentes líneas de investigación. Modelo de Hopﬁeld: reconocimiento del CAPTCHA CAPTCHA es una palabra que proviene las siglas de “Completely Automated Public Turing test to tell Computers and Humans Apart” (prueba de Turing completamente automática y pública para diferenciar ordenadores de humanos). Se trata de una prueba de tipo desafío-respuesta gestionada por máquinas, que no necesita ningún tipo de mantenimiento ni de mediación humana para su creación y funcionamiento. Constituyen un instrumento para limitar la capacidad de los atacantes a través de medios automáticos. De su estudio surgieron líneas de investigación y desarrollo interesantes y novedosas. Han resultado muy eﬁcaces en internet para evitar que los robots de software (softbots) reemplacen a los humanos en el rellenado de formularios con datos sensibles. La base del CAPTCHA está en la aptitud del cerebro humano para reconocer patrones y diferenciarlos del resto del ruido incorporado intencionalmente en la imagen. Se trata de una aplicación muy apropiada para el modelo de Hopﬁeld, que como se ha visto, es muy efectivo para la eliminación del ruido y recuperación de distorsiones, a la vez que se completa el proceso con otros tratamientos complementarios de análisis de imágenes. Uno de los objetivos que se persigue es el de posibilitar la realización de pruebas de robustez de la técnica de CAPTCHA adoptada. Para ello se busca un proceso objetivo, cuantitativo y sistemático. En la ﬁgura 11 se presentan ejemplos sobre esta codiﬁcación. Figura 11: Ejemplos de CAPTCHA Fuente: [Imagen sin título sobre recuperación de un símbolo]. (s.f.). Desafío propuesto a partir de las notas anteriores Con esta lectura se completó el objetivo en cuanto al tratamiento del aprendizaje no supervisado en el contexto de redes neuronales artiﬁciales autoasociativas. En razón de la natural limitación que impone el tiempo disponible para el dictado de la materia, se puso el foco en el modelo de Hopﬁeld. Si bien esto es materia opinable (ya que las preferencias serán siempre muy discutidas), esta elección se apoya en dos argumentos: 1) la amplia difusión de las redes de Hopﬁeld, tanto por ser el primer modelo totalmente recurrente (de amplio impacto en su presentación en 1982) como por sus variadas posibilidades en el tratamiento de imágenes; y 2) la sencillez de su implementación básica, admitiendo dos formas de entrenamiento y favoreciendo la posibilidad de que los lectores implementen sus propios algoritmos, hagan pruebas y obtengan resultados. Con la ﬁnalidad de alentar esto último, la implementación de aplicaciones que permitan al lector explorar variantes, obtener y evaluar resultados con su propio programa, es que se presentan ejemplos basados en una aplicación de desarrollo propio. Se quiere transmitir el mensaje de que no solo es posible sino también altamente recomendable. Paralelamente con el aprendizaje de la materia, es muy conveniente que el futuro profesional del área de sistemas incursione en el desarrollo e implementación de algoritmos. Es una oportunidad que se le presenta ahora y no debe desaprovechar. Es imposible anticipar lo que le espera a cada uno, pero tengan la seguridad de que, en un momento en el que es imposible imaginar los escenarios que nos esperan en el futuro, conocer un lenguaje de programación y ser capaz de desarrollar e implementar programas es una aptitud que no ocupa lugar y un sólido respaldo para lo que les pueda deparar el destino. De esta manera, con las lecturas 3 y 4 se ha completado el tratamiento del aprendizaje desde la óptica de su aplicación a modelos neuronales supervisados y no supervisados. Para continuar, se lo invita a volver sobre las preguntas aquí formuladas y las respuestas propuestas con un espíritu de autocontrol ﬁnal. La intención es estimular una mirada crítica sobre el trabajo realizado desde una posición de mayores conocimientos sobre los temas tratados. Se reitera que estas preguntas tienen como única ﬁnalidad contribuir a que el estudiante compruebe por sí mismo sus conocimientos, no constituyen una instancia de evaluación. Las consignas son las siguientes:  1. Revise la clasiﬁcación de los modelos neuronales para luego identiﬁcar y justiﬁcar la forma en que queda encuadrado el modelo de Hopﬁeld. 2. Haga lo mismo con otros modelos reconocidos como de aprendizaje no supervisado. 3. Identiﬁque las dos alternativas para el entrenamiento del modelo de Hopﬁeld. 4. Reconozca las limitaciones de cada uno con respecto a las condiciones que deben satisfacer los vectores que representan los “patrones”. 5. Reconozca las limitaciones de cada uno con respecto a la cantidad de patrones almacenables en relación al tamaño de la red (cantidad de unidades). C O NT I NU A R Lección 5 de 8 Video conceptual C O NT I NU A R Lección 6 de 8 Referencias Valera, A., Viloria, J., Pineda, M., Ferrer, J. (2019). Agrupamiento de suelos con redes neuronales de mapas autoorganizados en paisajes de montaña en la región centro norte de Venezuela. Recuperado https://www.redalyc.org/jatsRepo/721/72164777005/html/index.html C O NT I NU A R de Lección 7 de 8 Revisión del módulo Hasta acá aprendimos Aprendizaje – La importancia del aprendizaje en los seres vivos llevó, naturalmente, a que haya sido especialmente considerado en relación a los sistemas artiﬁciales a los que se quiere dotar de alguna forma de inteligencia. En la IA su trascendencia fue advertida desde el primer día. Razonamiento – En la segunda lectura, se pondrá el foco en el razonamiento, capacidad complementaria del previo aprendizaje, adaptándolo en función de las necesidades planteadas por el ámbito en que opera y considerando, en especial, el razonamiento argumentativo y lógico. Redes neuronales artiﬁciales: aprendizaje supervisado – En la inteligencia artiﬁcial resultó obvia la idea de simular directamente el funciona-miento del cerebro en una computadora, lo que justiﬁcó el interés por los modelos basados en redes neuronales artiﬁciales. El primer paso fue el aprendizaje supervisado. Redes neuronales artiﬁciales: aprendizaje no supervisado – En la cuarta lectura, el foco pasará a las redes de aprendizaje no supervisado, también llamadas autoorganizadas. Aquí, la red debe descubrir por sí misma rasgos comunes, regularidades o correlaciones entre los datos e incorporarlos a su estructura interna. C O NT I NU A R Lección 8 de 8 Descarga en PDF Módulo 3 - Lectura 4.pdf 1.6 MB

Related

Transcript

Tags

Upgrade to continue