Summary

Este artículo presenta ChatGMP, un chatbot que utiliza un modelo de lenguaje grande para la enseñanza de ingeniería química. El estudio compara el rendimiento de ChatGMP con el de los profesores en un curso de máster, encontrando resultados similares. Los resultados sugieren el potencial de la IA para automatizar tareas repetitivas y mejorar la educación.

Full Transcript

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño. Más información disponible en www.DeepL.com/pro. Informática y Educación: Inteligencia Artificia...

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño. Más información disponible en www.DeepL.com/pro. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Listas de contenidos disponibles en ScienceDirect Informática y Educación: Inteligencia Artificial Página web de la revista: www.sciencedirect.com/journal/computers-and-education-artificial-intelligence ChatGMP: un caso de chatbots de IA en la enseñanza de la ingeniería química hacia la automatización de tareas repetitivas Fiammetta Caccavale (a), Carina L. Gargalo a, Julian Kager b, Steen Larsen b, Krist V. Gernaey a, ,∗ Ulrich Krühne a, a Centro de Ingeniería de Procesos y Sistemas (PROSYS), Departamento de Ingeniería Química y Bioquímica, Universidad Técnica de Dinamarca, Søltofts Plads, Edificio 228 A, 2800 Kgs. Lyngby, Dinamarca b Planta piloto, Departamento de Ingeniería Química y Bioquímica, Universidad Técnica de Dinamarca, Søltofts Plads, Edificio 228 A, 2800 Kgs. Lyngby, Dinamarca ARTICLE INFO ABSTRACT Palabras clave: La Inteligencia Artificial (IA) se está integrando rápida y constantemente en diversos aspectos de nuestras vidas. Uno de Inteligencia artificial los ámbitos en los que estos sistemas se utilizan cada vez más es la educación. De hecho, tanto se está incorporando a Grandes modelos planes de estudios específicos, permitiendo a los estudiantes la posibilidad de adquirir competencias dentro de este lingüísticos Prompt campo, como, más recientemente, se ha utilizado la IA como herramienta para facilitar el proceso de enseñanza y engineering Educación 4.0 Educación superior aprendizaje. Sin embargo, el aumento de la demanda y la disponibilidad de estas herramientas no implican un cambio Chatbots en la satisfactorio del aprendizaje tradicional al aprendizaje asistido por IA. educación En este trabajo se presenta ChatGMP, un chatbot que aprovecha un Large Language Model (LLM) capaz de realizar un ejercicio de entrevista en un curso de máster impartido en la Universidad Técnica de Dinamarca (DTU). El ejercicio consiste en una entrevista de los estudiantes a una empresa ficticia, representada por los profesores o ChatGMP, en relación con sus Buenas Prácticas de Fabricación (BPF). El objetivo es que los alumnos formulen preguntas sensatas y bien razonadas para adquieran la documentación necesaria para elaborar un informe exhaustivo que indique si la empresa es potencialmente apta para el negocio. Para evaluar la iniciativa, comparamos el rendimiento de ChatGMP con el de los profesores presenciales del curso, así como la percepción de los alumnos hacia el mismo. Los resultados no muestran differencias significativas en la información proporcionada por los profesores y el modelo, lo que permite a los alumnos lograr un aprendizaje similar. Los alumnos que interactuaron con ChatGMP están satisfechos con la iniciativa y probablemente recomendarían a futuros alumnos realizar la auditoría con la herramienta digital. Este experimento inicial y sus resultados positivos sientan las bases para abrir el debate sobre cómo utilizar los LLM en la educación, las oportunidades que podrían ofrecer, así como sus limitaciones e inconvenientes. 1. Introducción ha sido testigo del auge de los grandes modelos lingüísticos (LLM, por sus siglas en inglés), que son modelos de procesamiento del lenguaje natural La Educación 4.0 se encuentra en la intersección de la digitalización y la (PLN) entrenados en cantidades masivas de texto, desarrollando un amplio Industria 4.0 y representa un cambio transformador en los paradigmas del conocimiento general que puede aplicarse a diversos campos y aprendizaje y enseñanza. Los modelos educativos convencionales ya no se aplicaciones (Brown et al., 2020). Los LLM como ChatGPT (Brown et al., consideran suficientes; presentan varios retos, como un único que no tiene en 2020; OpenAI, 2024) y Microsoft Copilot (Microsoft, 2024) se están cuenta las diferencias en el ritmo, el estilo de aprendizaje, los intereses y las convirtiendo progresivamente en una parte integral de nuestras vidas necesidades de , junto con una falta de adaptabilidad, especialmente al (Stöhr et al., 2024). La gente los utiliza a diario para hacer preguntas cambio tecnológico (Labadze et al., 2023; Stöhr et al., 2024; Rodrigues et al., generales, escribir párrafos escritos y generar código informático 2024; Alfredo et al., 2024). Esto a menudo conduce a efectos agravados de (Schweidtmann, 2024). Incluso las empresas están incorporando versiones falta de compromiso y malos resultados de aprendizaje. Así pues, para dejar de pago o desplegando modelos a medida para responder a sus atrás la educación tradicional, debemos actualizar los planes de estudio para necesidades específicas; chatBASF (BASF, 2023) y chatNN (NovoNordisk, que reflejen las necesidades actuales e integrar tecnologías de vanguardia 2024) son ejemplos de chatbots creados por empresas para su uso interno. como inteligencia artificial (IA) generativa en las aulas con la mayor fluidez En la educación, los profesores están explorando la posibilidad de automatizar posible. En los últimos años tareas repetitivas y laboriosas mediante la IA para reducir la carga de trabajo de los profesores y proporcionar una evaluación personalizada. * Autor correspondiente. Direcciones de correo electrónico:[email protected] (F. Caccavale),[email protected] (U. Krühne). https://doi.org/10.1016/j.caeai.2024.100354 Recibido el 16 de agosto de 2024; Recibido en versión revisada el 2 de diciembre de 2024; Aceptado el 21 de diciembre de 2024 Disponible en línea el 30 de diciembre de 2024 2666-920X/© 2024 Los autores. Publicado por Elsevier Ltd. Este es un artículo de acceso abierto bajo licencia CC BY (http://creativecommons.org/licenses/by/4.0/). F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Cuadro 1 Los chatbots basados en IA más utilizados en educación. Chatbot Año de Aplicación y objetivo principales Ref. lanzamiento Plaza 2009 Ayudar a la colaboración y al debate en las instituciones académicas sobre las tareas y el (Ruthotto et al., 2020; Wang et al., contenido de los cursos. 2020) Socrático 2013 Crear una comunidad para que el aprendizaje sea accesible a todos los estudiantes. Diseñado (Alsanousi et al., 2023; Moppel, 2018; para ayudar a St-Hilaire et al., 2022) los estudiantes aprenden nuevos conceptos. Ha sido adquirida por Google en 2018. Habitica 2013 Ayudar a los estudiantes a desarrollar y poner en práctica buenos hábitos de estudio (De Sales & Antunes, 2021; Zhang, gamificando el 2023) proceso de aprendizaje. Convierte la lista de tareas pendientes en experiencias similares a un juego. Réplica 2017 Diseñado para ser un chatbot de base social, que actúa como compañero y amigo de los (Pentina et al., 2023) estudiantes. puede escuchar los problemas y offer consejos. Ada 2017 Proporciona tutorías personalizadas a los estudiantes, respondiendo a sus preguntas y (Konecki et al., 2023) proporcionando comentarios personalizados. ChatGPT 2022 Creado por OpenAI. Chatbot que puede generar texto, crear diversos contenidos creativos (Dergaa et al., 2023; Khademi, 2023; y proporcionar información en forma de respuestas a las consultas. Rudolph et al., 2023) Bard 2022 Creado por Google. Chatbot que puede generar texto, traducción de idiomas, producir (Rudolph et al., 2023) contenidos creativos, y proporcionar información en forma de respuestas a consultas. Copiloto 2023 Creado por Microsoft (antes llamado Bing Chat). Está integrado en Microsoft 365 en un effort (Rudolph et al., 2023; Moradi Dakhel et al., de ayudar a educadores y estudiantes mejorando las experiencias de aprendizaje y 2023) productividad. educadores a dar prioridad a este enfoque en diversos ámbitos (Landrum y (Rodrigues et al., 2024). Además, el uso de IA generativa parece ser una forma McDuffie, 2010; Hwang, 2014). La retroalimentación continua e inmediata prometedora de adaptar las clases y los materiales didácticos a differentes también ha perfiles de estudiantes y necesidades de aprendizaje (Rodrigues et al., 2024; Divya et al., 2023; Wang & Demszky, 2023). En este trabajo, pretendemos investigar el uso de los LLM específicos de un campo como parte del plan de estudios de la enseñanza superior que, en última instancia, tiene como objetivo: (i) incorporar elementos de enseñanza activa en aulas grandes (> 100 alumnos); (ii) reducir sustancialmente el tiempo dedicado por los profesores a tareas repetitivas; (iii) proporcionar una experiencia de aprendizaje interactiva y divertida para los ; y, (iv) evaluar la capacidad de los LLM entrenados para responder a preguntas abiertas de alto nivel. Así, el manuscrito presenta ChatGMP, un bot de chat basado en un LLM preentrenado e introducido en el plan de estudios de un curso de máster en Buenas Prácticas de Fabricación (GMP) en la Universidad Técnica de Dinamarca (DTU). ChatGMP es capaz de realizar un ejercicio de auditoría en el que los estudiantes formulan preguntas sobre GMP y el chatbot las responde de forma coherente y proporciona la documentación necesaria para redactar un informe con las conclusiones. El chatbot se proporciona a los estudiantes a través de una interfaz gráfica de usuario (GUI) interactiva. Para evaluar la iniciativa, se comparan las actuaciones de ChatGMP y de los profesores presenciales mediante una serie de análisis cuantitativos y cualitativos. El manuscrito está estructurado de la siguiente manera: en la Sección 2 se presenta una breve revisión bibliográfica sobre el uso de chatbots generativos en la educación. A continuación, en la Sección 3, se presentan el diseño y los métodos subyacentes del Chat- GMP implementado. En la Sección 4, se presentan los resultados del experi- mento, incluyendo la perspectiva de estudiantes y profesores sobre la experiencia. En la sección 5 se analizan las conclusiones del experimento, destacando los puntos fuertes y débiles, así como las posibles perspectivas futuras (sección 6) y las limitaciones (sección 7). Por último, presentamos una conclusión general en la Sección 8 y el código en la Sección 9. 2. Antecedentes y objetivo El enfoque de la Sección 2 se limita a incluir únicamente la investigación en chatbots generativos utilizados en la educación y las contribuciones en la literatura publicadas a partir de 2019, utilizando modelos generativos pre- entrenados. La Sección se divide en dos partes: la subsección 2.1 resume las tendencias y los nuevos desarrollos en chatbots generativos en educación, la subsección 2.2 presenta el curso seleccionado para probar chatbots generativos en nuestra uni- versidad. 2.1. Chatbots generativos en la educación Las teorías pedagógicas indican que el aprendizaje diferenciado e individualizado es un método de enseñanza muy eficaz, lo que lleva a los 2 F. Caccavale, C.L. Gargalo, J. Kager et al. ha sido identificado como uno de los métodos de aprendizaje más effectivos Informática y Educación: Inteligencia Artificial 8 (2025) 100354 (Lauril- lard, 2009; Hattie & Timperley, 2007), ya que ayuda a evitar que los pequeños errores y malentendidos se agraven y se asienten. Al mismo tiempo, la estructura de la educación convencional se ha enfrentado a varios retos, que se han hecho más evidentes en los últimos años, como los diferentes ritmos y estilos de aprendizaje de los alumnos, la falta de atención personalizada a los estudiantes, la lucha constante para mantenerse al día con la rápida evolución y transformación de la tecnología, las aulas abarrotadas y las tareas administrativas que consumen mucho tiempo (es decir, calificación, programación, etc.) (Yan et al., 2024; Labadze et al., 2023; Caccavale et al., 2024a, 2024b; Chiu, 2024). De hecho, para resolver algunos de estos retos, los chatbots basados en IA se consideran una herramienta prometedora cada vez más adoptada por los educativos (Labadze et al., 2023; Stöhr et al., 2024; Rodrigues et al., 2024; Alfredo et al., 2024). Sin embargo, cabe señalar que no existe un consenso general sobre esta cuestión; por lo tanto, hay un gran interés en este tema y en mapear y evaluar las ventajas frente a las desventajas del uso de chatbots en la educación. Este interés va acompañado de una creciente literatura dedicada a analizar el uso de chatbots y el papel que desempeñan en la educación, y es probable que se amplíe rápidamente debido a la rápida evolución de la IA generativa. En la Tabla 1 se resumen algunos de los chatbots con IA más utilizados actualmente en la educación. A diferencia de la mayoría de los chatbots reseñados en la Tabla 1, el Chat- GMP desarrollado en este trabajo muestra un profundo conocimiento específico del dominio, que se adapta al curso al que se aplica. Dado que está fuera del alcance de este documento hacer una revisión exhaustiva del uso de chatbots en la educación (sopesando las amenazas frente a los beneficios), se remite al lector a artículos originales recientes sobre el tema, como Stöhr et al. (20242024), Rodrigues et al. (2024), Espartinez (2024), Schulze Balhorn et al. (); y revisiones bibliográficas como Gao et al. (2024), Labadze et al. (2023), Deng y Yu (2023), Crompton y Burke (2023), y Kuhail et al. (2023). 2.2. Antecedentes del curso seleccionado DTU offers a course in Good Manufacturing Practice (GMP), the governing guidelines from the authorities of food and pharmaceutical safety that set the standards for production industries. Según la Organización Mundial de la Salud (OMS), las BPF evitan los errores que no pueden eliminarse mediante el control de calidad del producto acabado, y sin las cuales sería imposible garantizar que cada unidad de un medicamento sea de la misma calidad que las unidades de medicamentos probadas en laboratorio.1 Para garantizar que las empresas trabajan de acuerdo con las directrices de las BPF, y 1 Medicamentos: Buenas prácticas de fabricación , disponible en: https:// www.who.int/news-room/questions-and-answers/item/medicines-good- manufacturing-processes, Consultado: 29-07-2024. 3 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Fig. 1. Proceso completo del modelo, desde la adquisición de datos hasta la evaluación por expertos. aplican los sistemas de gestión de la calidad exigidos, son auditados por las 2024a), muestran que los estudiantes están abiertos y dispuestos a probar la autoridades. Por lo tanto, en la producción farmacéutica, es muy importante IA en este tipo de aplicaciones. que estos procesos estén regulados y que los estudiantes estén bien formados Este trabajo presenta el primer ensayo de sustitución del papel del y educados en estas normativas. Como parte del aprendizaje activo del curso, profesor por ChatGMP, una herramienta de auditoría digital potenciada por IA los estudiantes deben planificar y ejecutar una auditoría en "Pharma A/S", para representar a la empresa ficticia. Por lo tanto, el objetivo de este estudio una empresa ficticia creada para este ejercicio. En este , asumen el papel de es desarrollar ChatGMP y comparar la eficacia del chatbot con el rendimiento auditor y auditan la empresa, que está representada por profesores. Durante de un profesor presencial a la hora de responder preguntas de auditoría como la auditoría, los alumnos deben hacer sobre las prácticas adoptadas por la "Pharma A/S" (la empresa ficticia creada para este ejercicio específico). Entre empresa y solicitar la documentación pertinente. Esta información es un los beneficios añadidos que podría generar la introducción de un LLM en el requisito previo para evaluar si la empresa en cuestión podría ser un socio curso, está el hecho de que los estudiantes podrían sentirse más comercial viable o si las no conformidades detectadas son demasiado graves. comprometidos por la naturaleza lúdica de la interacción y podrían estar más El papel de los profesores consiste en proporcionar respuestas precisas , en dispuestos a pedir más sobre las respuestas dadas. Hay que tener en cuenta caso de que se disponga de los documentos, o vagas, dejando que los que esta iniciativa no pretende avanzar hacia un curso sin profesor, sino más alumnos reflexionen sobre el comportamiento de la empresa. La entrega de bien ayudar a los profesores a centrarse en las clases y en la preparación del este ejercicio, que no es el examen final sino sólo una tarea de grupo que hay material en lugar de dedicar tiempo a ejercicios que requieren mucho tiempo que aprobar para poder pasar al examen, es un informe de auditoría. El y son repetitivos. También es importante tener en cuenta que los estudiantes informe se evalúa para valorar la capacidad de los grupos para detectar no pueden tener preferencias diferentes, ya sea que se sientan cómodos conformidades menores y mayores, así como su adecuación a la legislación. interactuando con un chatbot o a favor de un profesor físico, y por lo tanto, al En una declaración final, tienen que revelar si la empresa es conforme y, en menos para las primeras ediciones del curso, la participación en este caso contrario, hay que proporcionar un plan de acción necesario. experimento será totalmente , por lo que los grupos tienen la opción de El curso se imparte una vez al año, en el semestre de primavera, y pueden realizar la auditoría con un profesor o con ChatGMP. matricularse unos 120 estudiantes. Sin embargo, suele haber al menos un 25% más de estudiantes interesados en matricularse en el curso. La única 3. ChatGMP: desarrollo de datos y modelos limitación a la participación anual es el ejercicio de auditoría, ya que los tres profesores tienen que realizar personalmente las entrevistas, y cada año se Esta sección presenta los aspectos técnicos de ChatGMP, desde la forman unos 21-24 grupos de 5-6 estudiantes cada uno. Tras haber realizado adquisición de datos hasta la evaluación y mejora del modelo utilizado. En la este ejercicio durante varios años, los profesores afirman que realizar entre 7 subsección y 8 auditorías cada año puede resultar repetitivo y agotador, ya que las 3.1. A continuación se explican la adquisición y el preprocesamiento de datos preguntas y los temas tratados son bastante similares. Por lo tanto, la en la subsección 3.2, los detalles del desarrollo del modelo en la 3.3, el automatización de este proceso beneficiaría tanto a los estudiantes, ya que la despliegue del modelo en la 3.4 y el preexperimento de evaluación final en la participación anual y, por lo tanto, daría la posibilidad de matricularse a más 3.5. En la Fig. 1 se muestra el modelo completo. ChatGMP presenta un back- estudiantes, como a los profesores, ya que se automatizaría una tarea end y un componente front-end. Para facilitar la comprensión de estos y repetitiva y que consume mucho tiempo. El curso es generalmente discursivo, ayudar a los investigadores a comprender mejor cuáles de ellos se han y la normativa y la documenta- ción son sencillas de discutir, por lo que implementado en este trabajo y cuáles pueden encontrarse fácilmente en plantea un caso de uso adecuado para la aplicación de la IA. Además, diversos línea, a continuación se resumen los aspectos principales. estudios, como (Caccavale et al., 4 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Back-end: Las preguntas se fusionaron, lo que dio como resultado un documento – Conjunto de datos curados y específicos de un dominio: Los datos se con los pares pregunta-respuesta. almacenan en un conjunto de datos en formato JSON, una 6. Evaluación de la calidad: para garantizar la máxima calidad de los datos es la clave y su es el valor. El que se utilizarán como entrada del modelo, los documentos de texto conjunto de datos fue recopilado, preprocesado y curado por los resultantes (uno por cada auditoría realizada) se comprobaron autores. manualmente y se editaron cuando fue necesario. – Modelo preentrenado: Se utilizó un LLM preentrenado de código 7. Conjunto de datos final de control de calidad: una vez analizados los abierto, FLAN T5 (Chung et al., 2022). La decisión de utilizar este documentos, se concatenaron los pares pregunta-respuesta y se modelo se basa en la evaluación comparativa de otros modelos guardaron en un archivo JSON para su uso. preentrenados seleccionados y ampliamente disponibles. Estos modelos son de código abierto y los autores no cambiaron la La Fig. 2 muestra el proceso de preprocesamiento de datos. Todos los pasos arquitectura del modelo. para llegar a un conjunto de datos final de pares pregunta-respuesta están – Ingeniería de instrucciones: El LLM preentrenado se somete a ingeniería automatizados, excepto el paso de evaluación de la calidad, en el que se de preguntas; la pregunta dada al modelo se compone de una realizó una comprobación manual de la calidad para garantizar la máxima y se enriquece con el que contiene la calidad posible de los datos. pregunta histórica. El se encuentra mediante una Además de los pares pregunta-respuesta recogidos en los de auditoría, el búsqueda semántica que calcula la similitud del coseno entre la conjunto de datos se enriqueció con información extraída de los documentos pregunta de consulta (formulada por el alumno en ) y las preguntas que los estudiantes deben solicitar y recoger durante la auditoría. Estos de referencia (preguntas históricas almacenadas en el conjunto de documentos se refieren a procedimientos generales en GMP o son visuales de datos). Esta parte del código fue implementada por los autores. una plantilla rellenada por los empleados de "Pharma A/S". El número total de – Despliegue: El código se despliega localmente utilizando el Flask en documentos a disposición de los estudiantes es de once. Estos documentos Python. El código para desplegar la página web que aloja ChatGMP fue incluyen procedimientos estándar como mantenimiento, logística, formación escrito por los autores siguiendo el paquete Flask - la documentación de operarios, así como un ejemplo de registro de calibración y una plantilla de es muy fácil de seguir y replicar. limpieza. Front-end: – Interfaz: La interfaz fue creada en HTML por los autores. 3.2.1. Proceso de anonimización de datos Se pidió a los alumnos que dieran su consentimiento para la recogida de 3.1. Terminología LLM datos y se informó de que la interacción se anonimizaría y se en un conjunto de datos de texto con pares pregunta-respuesta, que luego se utilizaría en la Los LLM son capaces de tomar como entrada lenguaje natural (o investigación. Se les informó de sus datos personales no se distribuirían y de instrucciones escritas por humanos), lo que se conoce como prompt. La que no se recogería más información personal, por lo que no sería posible ventana de contexto disponible para el prompt suele ser bastante amplia, por rastrear la pregunta hasta ningún alumno. Todos los datos, incluidas las lo que las instrucciones dadas al LLM pueden ser muy elaboradas. En este grabaciones de vídeo, se tratan de forma segura y ética de acuerdo con la trabajo utiliza el aprendizaje en contexto, ya que el prompt se enriquece con GDPR. algo de contexto para mejorar la calidad de la generación. En la práctica, el Las auditorías se grabaron originalmente en vídeo por dos razones modelo realiza una tarea de predicción de la palabra siguiente. La salida principales, generada por el modelo se denomina finalización, mientras que la inferencia (i) porque los alumnos suelen pedir una grabación de la auditoría, ya que se refiere al acto de utilizar el modelo para generar texto; en este caso se tienen que redactar un informe con sus conclusiones y asegurarse de que no trata de una inferencia de disparo cero, ya que el LLM es capaz de bien la se les han escapado detalles útiles, y (ii) para captar toda la interacción entre tarea sin necesidad de más ejemplos. el auditor (alumnos) y el auditado (profesor). Esto está motivado por el hecho de que la versión final de la herramienta será un avatar o agente similar a un 3.2. Adquisición y preprocesamiento de datos ser humano y, por lo tanto, las respuestas de los profesores son necesarias para entrenar el modelo. Por lo tanto, no sería práctico registrar únicamente Para entrenar el modelo, es necesario recopilar y curar datos específicos las respuestas de los profesores. Incluso en futuras versiones del modelo, no del dominio. El proceso de adquisición y preprocesamiento de datos incluye se utilizarán las grabaciones originales de los alumnos, para proteger su los siguientes pasos: privacidad. Por último, una vez extraído el texto de los audios, el corpus de audiciones resultante se somete a una exhaustiva depuración manual, tanto 1. Grabaciones de vídeo: los datos utilizados en este trabajo proceden para garantizar un resultado de alta calidad como para evitar la presencia de principalmente de los ejercicios de auditoría; las auditorías se realizaron atributos definitorios que puedan vincular a individuos concretos. y grabaron en vídeo en los semestres de primavera de 2022 y 2023, sumando un total de 35 auditorías de aproximadamente 45 minutos de 3.3. Desarrollo de modelos duración cada una. 2. Extracción de audio: a continuación se extrajeron los audios de los ChatGMP es un LLM de respuesta a preguntas (QA) basado en un modelo vídeos utilizando la biblioteca MoviePy de Python.(2) preentrenado y entregado a los estudiantes a través de una interfaz de 3. Diarización: para detectar a los distintos locutores y, por tanto, usuario interactiva. El componente LLM se basa en un modelo preentrenado poder identificar las preguntas (formuladas por los alumnos) y las de código abierto, que puede descargarse de la biblioteca HuggingFace(4). Para respuestas (formuladas por el profesor), la diarización, un proceso de encontrar el modelo más adecuado para el curso, se evaluaron modelos de GC partición automática de una grabación de audio en segmentos que basados en transformadores (Vaswani et al., 2017), preentrenados y de corresponden a distintos locutores, se llevó a cabo mediante la código abierto5, tanto codificadores-decodificadores (o secuencia a secuencia) diarización de locutores (Speaker Diariza- tion 3.1).3 como autoregresivos (o solo decodificadores). El rendimiento de varios 4. De voz a texto: la segmentación del locutor se utilizó a continuación para modelos, entre ellos: T5 (base, large) (Raffel et al., 2020), FLAN-T5 (base, extraer el texto mediante un modelo de voz a texto, el Whis- per large, xl) (Chung et al., 2022), LLaMA 2 (Touvron et al., 2023). El modelo final preentrenado de OpenAI (Radford et al., 2023). seleccionado para su uso en el curso fue 5. Fusionar pares de QA: una vez extraído el texto y detectados los differ- entes hablantes, el profesor, que suele ser el orador con más , fue clasificado y todos los 4 https://huggingface.co/docs/transformers/en/model_doc/flan-t5. 5 Aunque LLaMA 2 (Touvron et al., 2023) no puede clasificarse estrictamente como 2 https://pypi.org/project/moviepy/. de código abierto, las ponderaciones del modelo pueden descargarse y, por tanto, el 3 modelo puede utilizarse de forma similar a otros. https://huggingface.co/pyannote/speaker-diarization-3.1. 5 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Fig. 2. Proceso de pretratamiento de datos. Los puntos de los recuadros corresponden al paso específico de preprocesamiento descrito en la sección 3.2. En las capturas de vídeo los profesores participan en el ejercicio de auditoría y, por lo tanto, responden a las preguntas de los alumnos sobre las prácticas correctas de fabricación. Las capturas de vídeo se han difuminado para proteger la intimidad de los profesores. Fig. 3. Esquema de las instrucciones dadas a. En el ejemplo dado, se pide a ChatGMP que abra el documento "Registro de calibración" (abierto en otra ventana como en la Fig. 4), y lo resume a los estudiantes. FLAN-T5. La decisión fue un trade-off entre rendimiento y efficiencia en La decisión de realizar una ingeniería rápida y recuperar el contexto tiempo de ejecución: de hecho, el modelo tenía que ejecutarse localmente mediante una búsqueda semántica obedece a nuestro objetivo de utilizando una sola GPU, por lo que un modelo como LLaMA 2, aunque más restringir la probabilidad de alucinación de los LLM. De hecho, la calidad y preciso en la generación, era demasiado lento para ser utilizado con los exactitud de la respuesta que el modelo proporciona a los estudiantes es de estudiantes, dados los recursos y la infraestructura disponibles. suma importancia para el éxito del ejercicio de auditoría. En nuestro caso, la En nuestro caso, el prompt se compone de una pregunta (formulada por el ingeniería del prompt tiene un doble beneficio: (i) reduce las alucinaciones y, grupo de estudiantes que realiza la auditoría) y enriquecida con el contexto por tanto, proporciona respuestas más pertinentes y se ciñe al contexto que contiene la respuesta (respuesta histórica) a la pregunta. El contexto se proporcionado; y (ii) mejora las respuestas dadas previamente: el conjunto de recupera mediante búsqueda semántica calculando la similitud coseno entre datos se recoge a partir del lenguaje oral, lo que significa que, a pesar de la la pregunta de entrada y la pregunta más similar del corpus. Una vez evaluación de calidad realizada, contiene naturalmente pequeñas encontrada la pregunta de archivo más similar, su respuesta, extraída de los repeticiones y errores típicos de los enunciados verbales. Esto significa que el ejercicios históricos de auditoría, se añade a la pregunta. A continuación, el modelo es capaz de generar respuestas que son sintácticamente más correctas LLM genera una respuesta a la pregunta formulada basándose en el contexto y, por tanto, no es necesaria ninguna otra corrección manual de las respuestas. proporcionado. El proceso se visualiza en la Fig. 3. Además, no afinar el modelo también permite ahorrar recursos informáticos. 6 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 una terminación. Es importante señalar que, en general, los modelos más grandes tienen un tiempo de ejecución más largo, lo que significa que generarán la respuesta más lentamente. Esto es evidente al comparar el tiempo de ejecución de los dos modelos probados, donde FLAN-T5 es significativamente más rápido para generar la compleción que LLaMA 2. Esto debe tenerse en cuenta y abordarse adecuadamente para garantizar una experiencia rápida y sin problemas para los estudiantes. 3.5.2. Evaluación previa al experimento Es necesario evaluar un modelo tanto cualitativa como cuantitativamente (como se ha hecho anteriormente mediante la puntuación BLEU y la similitud del coseno) antes de implantarlo como parte del sistema educativo. Antes del ejercicio de auditoría, se pidió a los alumnos que entregaran un documento de preparación para la auditoría, que incluía también las preguntas que el grupo tenía previsto formular. Normalmente, los profesores examinaban las preguntas antes de la auditoría para asegurarse Fig. 4. Ejemplo de pregunta formulada por los alumnos durante el ejercicio de de que estaban preparados para responder a todas ellas. Sin embargo, auditoría con el documento emergente mostrado. para no sesgar los re- sultados, ChatGMP se evaluó con las preguntas de los grupos inscritos en la edición 2024 del curso, pero excluyendo a los 3 grupos Cuadro 2 que decidieron realizar el ejercicio de auditoría con él. Esto significa que en Resultados medios de los modelos FLAN-T5 y LLaMA 2 el momento de realizar los ejercicios de au- ditoría, el conjunto de preguntas dados el prompt (pregunta del alumno) y el contexto preparadas por los 3 grupos no eran vistas por ChatGMP. El modelo se probó (respuesta del profesor). Los resultados se calculan sobre antes de ser utilizado en el curso tanto con usuarios habituales (compañeros un subconjunto de preguntas (N=10) y se utilizó la GPU familiarizados con los conceptos de las GMP) como con usuarios expertos A100. (los profesores). Los comentarios , que en su mayoría consistían en errores menores como documentos que no se abrían, se incorporaron a la versión Similitud coseno BLEU Tiempo de ejecución desplegada del modelo. Además, se descubrieron algunos temas sobre los que Base FLAN-T5 0.68 0.39 19.0 s el modelo carecía de conocimientos, y se añadieron más datos a la base de LLaMA 2 0.72 0.33 38.9 s datos para que el modelo pudiera responder a esas en los ejercicios de auditoría reales. 3.4. Despliegue de modelos 3.5.3. Pruebas estadísticas Después de las auditorías, para evaluar si la diferencia entre los dos La interfaz de ChatGMP, que se muestra en la Fig. 3 (paso 2: "Modelo"), se grupos (estudiantes que realizan la auditoría con un profesor y estudiantes desarrolló en Python, utilizando el paquete Flask para su despliegue. El front- que realizan la auditoría con ChatGMP) es significativa, se realizaron dos pruebas end está en HTML. El modelo se desplegó localmente utilizando una única estadísticas. La hipótesis nula es que no existe una significativa entre los dos GPU NVIDIA GeForce RTX 2060 con Max-Q Design. Durante el ejercicio de grupos. Esto significaría que los dos grupos están igualmente satisfechos con su auditoría, los estudiantes interactuaron con el chatbot a través de un portátil experiencia respectiva y que fue capaz de cumplir sus objetivos. Para las conectado a un monitor. Un estudiante debía escribir las preguntas y todos tres primeras preguntas de investigación (RQ1, RQ2 y RQ3realizamos una los alumnos del grupo podían ver la respuesta en el monitor. Si los estudiantes prueba U de Mann-Whitney (también conocida como prueba de suma de rangos re pedían ver un documento concreto, el modelo se activaba para mostrar el de Wilcoxon) (Mann & Whitney, 1947), que es una prueba no paramétrica documento a través de una ventana emergente. Los alumnos tenían entonces que compara las distribuciones de dos grupos independientes. Se suele la de hojear el documento antes de pasar a la siguiente pregunta. En la Fig. 4 utilizar para datos ordinales y no requiere el supuesto de normalidad. Para la se muestra un ejemplo. Todos los documentos mostrados a los estudiantes última pregunta de investigación (RQ4) se realizó una prueba de Chi- durante la auditoría les fueron enviados posteriormente. cuadrado (McHugh, 2013), que evalúa si existe una asociación significativa entre dos variables categóricas (en este caso, el grupo y la categoría de 3.5. Evaluación y mejora respuesta). 3.5.1. Rendimiento del modelo 4. Resultados Para evaluar las respuestas generadas por los modelos, calculamos dos métricas ampliamente utilizadas para los modelos de control de calidad, la 4.1. Resultados de la auditoría: puntos de vista de los estudiantes puntuación BLEU (Papineni et al., 2002) y la similitud coseno. BLEU es una métrica basada en la precisión que se desarrolló originalmente para evaluar la En la edición 2024 del curso GMP, los alumnos se dividieron en 21 grupos traducción automática y cuantifica la alineación entre el texto generado y el para realizar el ejercicio de auditoría. Se pidió a los grupos que se ofrecieran de referencia. Las medidas de coseno, como la similitud y la distancia, se voluntarios para probar ChatGMP y realizar la auditoría con él. De los 21 utilizan habitualmente en PNL para calcular la relación entre palabras, frases o grupos, 3 se ofrecieron voluntarios para probar el chatbot. En la Fig. 5 se documentos, como en Mikolov et al. (2013). En la tabla 2 se muestran los resumen las opiniones de los estudiantes tras el ejercicio de auditoría. Las resultados de dos modelos seleccionados entre los de referencia, los que respuestas corresponden a los alumnos que realizaron la auditoría con un mejor ponen de manifiesto la relación entre precisión y eficiencia. La similitud profesor (14 alumnos) y con ChatGMP (13 coseno es bastante alta, lo que significa que el resultado generado es similar a + 7 estudiantes). Los comentarios sobre ChatGMP se recogieron en dos las respuestas originales. La Tabla 2 también muestra que las puntuaciones encuestas: una administrada el mismo día de los 3 ejercicios de auditoría BLEU no son tan altas como la similitud coseno: sin embargo, esto no significa realizados con él, el 21/03/2024, y en la encuesta general dirigida a todos los necesariamente que el modelo no sea capaz de realizar la. La métrica estudiantes matriculados en el curso GMP y administrada el 02/05/2024. En compara el conjunto de tokens producidos con los de la respuesta original, aras de la transparencia, se presentan las dos respuestas relativas a ChatGMP. por lo que las posibles explicaciones de las bajas puntuaciones BLEU podrían Esas respuestas podrían solaparse. incluir que el modelo intenta excluir la información redundante o genera Los gráficos muestran que los estudiantes que interactúan con ChatGMP sinónimos de las palabras de la respuesta original. Además, las métricas valoran su experiencia de forma similar al grupo de control (estudiantes que utilizadas, especialmente la puntuación BLEU, se ven afectadas por la longitud realizan el ejercicio con los profesores). Especialmente en la pregunta RQ1, de la compleción en comparación con la respuesta original. La tabla 2 también "¿Estás satisfecho con tu experiencia?", presentada en la Fig. 5 (a), los muestra una comparación del tiempo de ejecución necesario para estudiantes parecen estar de acuerdo en los dos grupos. En cuanto a la segunda pregunta sobre 7 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Fig. 5. Respuestas a las encuestas sobre los resultados de la auditoría, tanto de los alumnos que realizaron la auditoría con un profesor (14 alumnos) como de ChatGMP (13+ 7 alumnos). Para mayor transparencia, representamos tanto las respuestas relativas a ChatGMP obtenidas justo después de los ejercicios de auditoría en una encuesta realizada el 21/03/2024 (13 alumnos, conjunto central de barras) como las que respondieron a la encuesta general realizada el 02/05/2024 (7 alumnos, último conjunto de barras). Esas respuestas podrían solaparse. (a) Respuestas a la pregunta de investigación "¿Está contento con su experiencia?" (RQ1). (b) Respuestas a la pregunta "Después de haber realizado la auditoría, ¿qué opina de la calidad de las respuestas?". (RQ2). (c) Respuestas a la pregunta "¿Recomendaría realizar la auditoría con su auditado (profesor o ChatGMP) a otros estudiantes?". (RQ3). (d) Respuestas a la pregunta "¿Cree que este es el futuro del ejercicio de auditoría en este curso?". (RQ4). RQ1, RQ2 y RQ3 están en una escala en el rango 1-5, de menor a mayor. En cuanto a la calidad de las respuestas, RQ2, los resultados de la Fig. 5 (b) Cuadro 3 muestran que los estudiantes del grupo de control consideran Media y desviación típica de los grupos que auditaron al mayoritariamente que la calidad de las respuestas es buena, con unos profesor y de los dos grupos que auditaron ChatGMP para RQ1 ("¿Está satisfecho con su experiencia?"), RQ2 pocos que creen que es muy buena, y un 28% combinado que es de media ("Después de haber realizado la auditoría, ¿qué opina de la a baja. En cuanto a la muestra de ChatGMP que respondió a la encuesta calidad de las respuestas?") y RQ3 ("¿Recomendaría su justo después del ejercicio de auditoría, los estudiantes consideran en su auditado a otros estudiantes?"). mayoría que la calidad de las respuestas es media, y un 38% de ellos la consideran buena o muy buena. RQ3, la tercera pregunta de investigación RQ1 RQ2 RQ3 mostrada en 5 (c), "¿Recomendaría a su auditado (profesor o ChatGMP) a otros avg.|std. avg.|std. avg.|std. estudiantes?" muestra un poco más de polaridad. Si el grupo de control Profesor 4.29; 0.59 3.79; 0.77 4.50; 0.73 parece estar muy convencido de su auditado (los profesores), el otro está ChatGMP1 4.23; 0.58 3.54; 0.75 4.00; 0.55 satisfecho pero no muestra la misma convicción. Esto no es ChatGMP2 4.43; 0.49 3.43; 0.73 4.29; 0.70 necesariamente negativo para el experimento, sino que podría significar simplemente que algunos estudiantes necesitan más tiempo para adaptarse a los cambios y ver el potencial que la IA podría aportar a la educación. Por último, la última pregunta (RQ4) de 5 (d), "¿Cree que este es el futuro del Tabla 3. En el caso de la RQ4, no se presentan estos parámetros porque las ejercicio de auditoría en este curso?", muestra un acuerdo sustancial entre respuestas son categóricas. los distintos grupos entrevistados, lo que sugiere que todos los grupos Se comparan las distribuciones del grupo que realizó la auditoría con el estaban satisfechos con su elección de auditado o pensaban que la otra profesor con las de los otros dos grupos, los alumnos que realizaron la opción podría seguir siendo viable. Se trata también de un dato auditoría con ChatGMP respondiendo el 21/03 (D1) y los alumnos que interesante y podría merecer la pena en el futuro que los mismos grupos realizaron la auditoría con ChatGMP respondiendo el 02/05 (D2). Los realizaran las au- dits tanto con los profesores como con ChatGMP, para estadísticos de las pruebas y los valores p se presentan en la Tabla 4. Para poder comparar mejor sus experiencias. Curiosamente, los estudiantes todas las preguntas, el valor p es superior al nivel de significación (fijado que responden a la encuesta después de unas semanas desde la en 0,05), por lo que no se rechaza la hipótesis nula y se concluye que no experiencia, tienen en general una mayor percepción del ejercicio de existe una diferencia significativa en la distribución de las respuestas entre auditoría con el chatbot y de la calidad de las respuestas. Esto puede los dos grupos. Por lo tanto, tanto la Tabla 3 como la Tabla 4 ponen de observarse en todas las respuestas comunicadas. Podríamos plantear la manifiesto que las respuestas de los dos grupos de estudiantes son hipótesis de que, tal vez, los estudiantes se dieron cuenta de que, de comparables y no muestran ninguna differencia estadísticamente significativa. La hecho, se les proporcionaron todas las herramientas para elaborar un Tabla 5 presenta respuestas más elaboradas a las cuestiones tratadas buen informe y, por lo tanto, desarrollaron una mejor opinión sobre la anteriormente, así como posibles ventajas y limitaciones de la imple- herramienta, que podría haberse sentido un poco frustrante a veces, chatbot mentado. también dado el estrés de tener que realizar la auditoría y entregar un informe. La media y las desviaciones típicas de RQ1, RQ2 y RQ3 figuran en 8 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Cuadro 4 Prueba U de Mann-Whitney que compara las distribuciones de los grupos que auditan al profesor y los dos grupos que auditan ChatGMP. La prueba U de Mann-Whitney se realiza para RQ1, RQ2 y RQ3 y Chi-cuadrado para RQ4. Las diferencias no son estadísticamente significativas. RQ1 RQ2 RQ3 RQ4 𝑈𝑀 |p-val 𝑈𝑀 |p-val 𝑈𝑀 |p-val Chi2|p-val D1 13.0; 1.00 13.5;.91 13.5;.91 0.3;.58 D2 16.0;.50 14.0;.83 14.0;.83 0.0; 1.0 Cuadro 5 Elaboración posterior por parte de los alumnos del curso (3 grupos). La primera columna presenta las respuestas de los alumnos que realizaron la auditoría con un profesor (14 alumnos), la segunda y tercera columnas representan las respuestas con ChatGMP (13+ 7 alumnos). Para mayor transparencia, presentamos las respuestas relativas a ChatGMP obtenidas justo después de la auditoría del 21/03/2024 (13 alumnos, segunda columna) y las que respondieron a la encuesta general administrada el 02/02/2024 (7 alumnos, tercera columna). Estas respuestas pueden solaparse. Las respuestas redundantes o no adecuadas no se presentan. Pregunta Profesor 02/05 ChatGMP 21/03 ChatGMP 02/05 ¿Qué opina de la calidad de las ∙ Las respuestas del auditado no fueron como ∙ Algunas respuestas eran buenas, pero a veces ∙ A veces daba las mismas respuestas que en respuestas generadas por el esperábamos. Algunas respuestas no tenían nos equivocábamos, lo que podía ser culpa preguntas anteriores y muchas veces, al hacer tutor virtual? sentido y daba la sensación de nos estaba nuestra por no haber formulado preguntas más preguntas sobre diferentes, proporcionaba desorientando. di- rectas. documentos que ya había dado al responder a ∙ Creo que hemos recibido todas las respuestas ∙ mucho mejor de lo que esperaba. una pregunta anterior sobre un tema detalladas a nuestras preguntas durante el Extremadamente im- presionado completamente diferente al de la pregunta en debate. ∙ Las respuestas parecían estar predeterminados cuestión. auditoría. por lo que no mintió sobre stuff pero era a ∙ La fluidez general es buena, pero ChatGMP a ∙ el profesor nos dio muy buenas respuestas y veces un poco difícil de conseguir veces da la misma respuesta y la espera para relacionados con nuestras preguntas exactamente lo que queremos, tal vez podría obtener una respuesta, aunque no demasiado ∙ No 5, porque no estaba seguro, si el profesor decir más exactamente cuando estamos larga -unos treinta segundos más o menos-, es realmente no podía responder o si el profesor corriendo en una dirección que no puede una experiencia extraña, ya que interactuar quería que preguntáramos más en responder con una persona real normalmente te da una detalle. Esto se aclaró después de un poco de ∙ Las respuestas son muy reales, incluso con el respuesta inmediata. con- fusión. relleno y las respuestas de estilo informal, lo ∙ Fue una experiencia nueva e interesante. Me ∙ Fue una buena experiencia real saber cómo que es bueno. entusiasma ver la presencia de la IA en los trabajos de auditoría. ∙ Me parece mejor de lo que esperaba. cursos de biología. Tuvimos problemas para ∙ Como la interacción. Conseguimos los documentos que obtener las mismas respuestas de ChatGMP ∙ El profesor respondió como habría esperado necesitábamos. Y fue muy útil. para diferentes preguntas. Algunas de las de un auditado real. Por supuesto, las ∙ Creo que las respuestas son detalladas, pero respuestas eran contrarias al alcance de los respuestas no siempre satisfacían a los los documentos que el robot puede documentos. Además, escribir y leer como proporcionar siguen siendo única forma de comunicación no resultaba auditores. Pero el profesor era muy un poco limitado. Y parece que algunos cómodo. Añadir comunicación de audio en considerado e intentaba darnos pistas sobre problemas se malinterpretaron un poco. ambos sentidos mejoraría mucho la lo que podíamos preguntar para obtener las ∙ Al tratarse de un modelo de IA, a veces no experiencia. deseadas. entendió nuestra pregunta, y tuvimos que ∙ Creo que en algunas preguntas no obtuvimos la ∙ En general, las respuestas fueron informativas formularla de una manera muy específica respuesta exacta que esperábamos de Chat y claras, con falta de detalles, como se para que nos diera la información que GMP. pretende hacer notar. necesitábamos. ¿Cree que este es el futuro del ∙ Puedes tener más alumnos y con las mejoras ∙ Puedo ver que sucede, sigo pensando que los ∙ Es sin duda un enfoque interesante, pero ejercicio de auditoría en este en IA creo que desarrollas un buen programa humanos reales tienen más experiencia ChatGMP debería desarrollarse y optimizarse curso? ∙ Si vamos a la industria, la auditoría es una ∙ Creo que funcionaría, pero hay que asegurarse más para que pudiera aplicarse plenamente parte muy importante, es buena para los de que las preguntas sean breves y precisas. Y en el curso. estudiantes tener más tiempo que sólo 45 min. ∙ Disfruté mucho de toda la experiencia de ser tener un concepto sobre cómo aplicar las ∙ Es efficient si cada grupo puede hacer el au- auditor con ChatGMP y de trabajar en el buenas prácticas de fabricación en los casos dito con el chatGMP al mismo tiempo en- informe después de la auditoría. Esta reales. en lugar de un profesor. actividad me ha familiarizado con muchos ∙ ¿Cuál es el futuro? Hacer la auditoría o do- ∙ Creo que depende de la disponibilidad y la conceptos diferentes dentro de las GMP. ¿con ChatGMP? Para este último diría que no, percepción del auditor. Creo que el uso de ChatGMP será de gran porque realmente necesitaba la pequeña ∙ Porque funciona bien, obviamente podría ser ayuda en las clases para realizar estos interacción con el profesor un poco más rápido pero me ha gustado ejercicios de auditoría. ∙ Me gusta la auditoría física, pero no intenté ∙ Sigo pensando que necesitas a alguien que ∙ Aunque facilita mucho los procesos, no estoy el chat. Creo que el chat podría ser bueno si supervise... seguro de que pueda sustituir a una empresa. significa que el tamaño de los grupos podría pero reduce la carga de trabajo de los profesores ∙ Depende del formato que prefiera el alumno, reducirse. ∙ Creo que la respuesta es un poco lenta en y creo que cada uno tiene sus ventajas. ∙ ¿Qué forma tendrá el futuro? Chat- GMP. Pero es bueno y en comparación ∙ Definitivamente lo recomendaría, es el único depende del objetivo de la auditoría. El con los humanos creo que es como el mismo. curso con presencia de IA para ejercicios en objetivo principal podría ser simplemente ∙ Creo que sin duda se puede utilizar como grupo, fascinante e innovador. Ayuda a simular la formulación de preguntas y la parte del curso, pero si el propósito es llevar a estructurar el tren de pensamiento. Creo que recepción de las respuestas, algo que podría cabo una auditoría "falsa", entonces es mejor es el futuro ya que en un momento dado más conseguir ChatGMP; sin embargo, la interactuar con los seres humanos durante el grupos podrán realizar auditorías al mismo interacción directa con una persona durante mismo tiempo, y los grupos obtendrán la una nunca puede simularse con esta forma de mismos datos. auditoría. Por lo tanto, dependiendo de la ∙ Porque, depende de la gente cómo precisión de la simulación de la auditoría, utilizan herramientas de IA. podría preferirse cualquiera de los dos formularios. ∙ Es un curso teórico y no hay muchos profesores para esto. 9 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Cuadro 5 (continuación) Pregunta Profesor 02/05 ChatGMP 21/03 ChatGMP 02/05 ¿Podría escribir algunas ∙ Creo que ha sido una gran experiencia y ha ∙ A veces teníamos que hacer directas, mientras ∙ Después de introducir una pregunta, impresiones adicionales? puesto a GMP en otra perspectiva en lugar de que si fuera una [persona] real nos habría ChatGMP generaba una larga respuesta que sólo las clases entendido. teníamos que leer para obtener la experiencia ∙ Realmente parecía que el auditado/profesor ∙ En general, una buena experiencia. Un poco completa, pero parecía poco natural y formaba parte de un equipo de control de estresante teclear. Deberían haber acortado guionizada. Parece que ChatGMP está calidad de una empresa. las preguntas. eliminando la experiencia real de hablar con ∙ Estuvo bien. ∙ El ChatGMP responde como una persona real, los auditores y obtener respuestas sin guión. ∙ El profesor hizo un gran trabajo preparando el pero no parece una conversación real. ∙ ChatGMP tiene un gran potencial y espero escenario y ayudándonos a meternos en el ción. que algún día se convierta en una papel de los auditores presentando a todas ∙ Fue una gran experiencia hacer auditorías con IA. herramienta que las empresas utilicen para las personas "presentes" en la auditoría. ∙ Era bonito pero un poco artificial sus consultas externas e internas. ∙ La preparación fue detallada y el tiempo ∙ Es raro esperar las respuestas, pero supongo auditorías internas. estuvo bien programado. que forma parte del proceso. Creo que sigue ∙ Realmente fácil de usar y muy práctico siendo bueno tener a alguien que nos guíe, ∙ un poco estresante reformular las preguntas sin sobre todo en la fase de solicitud, en la que a perder de vista las respuestas y los recibidos. veces tardamos de tres a cuatro solicitudes en ∙ La comunicación por escrito está obtener un documento que habíamos pedido disminuyendo mucho el alcance de las directamente. interacciones reales. No era cómodo para ∙ Sí, fue una experiencia bastante buena. Yo soy todo el grupo leer las respuestas. Además, las muy contento de que me respondieran tan bien respuestas repetían. El chat no podía darnos a todas mis preguntas". documentos porque utilizábamos que no ∙ Creo que sin duda va por buen camino. estaban programados. dirección, pero necesita un poco más de. Me ∙ Creo que ChatGMP es una idea genial, aunque sentí un poco estresada durante la auditoría tiene algunos problemas para entender la porque no podía predecir lo que se nos iba a pregunta. En general, para mí ChatGMP es decir y cómo iba a funcionar. una buena IA para la auditoría. ¿Alguna sugerencia para mejorar ∙ el profesor dice que "no podemos darles estos ∙ Tal vez podría ser agradable si pudiéramos ∙ Mejorar el diseño (o la interfaz). Preparar a esto u otros comentarios archivos porque están almacenados en el hablar con él los alumnos para que sepan cómo dar adicionales? sistema LIMS". Sería mejor la clase añadiera ∙ Hacer la interfaz más atractiva y agradable. instrucciones. más información sobre este LIMS, porque hormiga. Es un poco básico. ∙ Añade reconocimiento de voz para hacer ahora es más popular en la industria y puede ser ∙ Creo que fue un poco lento al responder a la preguntas y pronunciaciones de audio de las muy útil saber más sobre él y sobre cómo. pregunta. Como se está tomando el tiempo. respuestas, ya que lleva demasiado tiempo ∙ es mucho más lento escribir que hablar, así teclear el tono de apertura de la reunión y las que quizás incluya una función para copiar y preguntas. Añadir más sinónimos para poder pegar las preguntas. reconocer las mismas preguntas cuando se ∙ Creo que por ahora es perfecto formulan de formas distintas (sobre todo en ∙ Más tiempo para responder a la pregunta. Fue el caso de preguntas con requisitos de ). muy estresante. Asegúrate de que la gente sepa ∙ Da la sensación de que hay que analizar más que debemos hacer preguntas cortas y precisas. datos para que el chat entienda las preguntas y crear más documentos para. También estaría bien añadir datos relacionados con la sostenibilidad. No forma parte de la ICH Q7, pero el chat puede decir algo como "no forma parte de la ICH Q7, pero la seguiremos a continuación". pasos que pueden relacionarse con ICH Q7". En cuanto a la calidad de las respuestas, tanto los grupos de alumnos que mismo haciendo la auditoría con el chatbot o con un profesor. Además, dos realizaron la auditoría con los profesores como con ChatGMP consideraron estudiantes afirman que: que algunas respuestas no tenían sentido y no siempre eran satisfactorias para los auditores. Por lo tanto, ChatGMP, aunque no era técnicamente "Disfruté mucho de la experiencia de ser auditor con ChatGMP y de trabajar perfecto, no empeoró la experiencia de los alumnos, ya que los alumnos del en el informe después de la auditoría. Esta actividad me con muchos grupo de control sufrieron los mismos problemas. Por otra parte, ambos conceptos diferentes dentro de las GMP. Creo que el uso de será de gran grupos también tuvieron opiniones positivas. El grupo de control destacó la ayuda en las conferencias para realizar estos ex- ceptos de auditoría." interacción con los profesores y que, en general, fue una buena experiencia "Definitivamente lo recomendaría, es el único curso con presencia de IA para real, mientras que el otro grupo afirmó que estaban impresionados y que las ejercicios en grupo, fascinante e innovador. Ayuda a estructurar el tren de respuestas fueron mejores de lo esperado, que les mostraron todos los pensamiento. Creo que es el futuro, ya que en un momento dado más grupos documentos necesarios, que el chatbot fue de gran ayuda y que las respuestas podrán realizar auditorías al mismo tiempo, y los grupos obtendrán los parecieron reales e informales, lo cual agradecieron. mismos datos." Varios estudiantes del grupo de control reconocieron el potencial de ChatGMP, que permitiría matricular a más estudiantes en el curso cada año y En general, los estudiantes que interactúan con ChatGMP "piensan que reducir el tamaño de los grupos. También destacan la de la interacción que ChatGMP es una idea genial, aunque tiene algunos problemas a la hora de faltaría si la auditoría se realizara con el chatbot, pero luego reflexionan que entender la pregunta. En general, [...] ChatGMP es una buena IA para la "la forma que se adopte en el futuro dependerá del objetivo de la auditoría. El auditoría". Indican algunas que deberían mejorarse, como el tiempo de objetivo principal podría ser simplemente simular la formulación de preguntas y respuesta, la interfaz general, que es funcional pero aún no es perfecta, y el la recepción de , algo que ChatGMP podría , sin embargo, la interacción hecho de que las preguntas tenían que ser muy precisas y específicas para que directa con una persona durante una auditoría nunca puede simularse con esta el chatbot respondiera de forma óptima. Sugieren incorporar la opción de forma de auditoría. Así que, dependiendo de la precisión de la simulación de la copiar y pegar preguntas (que es posible, pero que el profesor no permitió auditoría, podría preferirse cualquiera de las dos formas". Los demás grupos durante la auditoría) o pronunciar la pregunta en lugar de escribirla. Otro también están de acuerdo en que cualquiera de las dos formas de auditoría problema recurrente que se encontró fue que algunas respuestas se tiene ventajas, pero que tener la de realizar el ejercicio de auditoría con consideraban no pertinentes o erróneas o que el chatbot a veces ChatGMP reduciría sustancialmente la carga de trabajo de los profesores. proporcionaba el mismo documento varias veces Además, consideran que sería la 10 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Fig. 6. Respuestas de los expertos del curso (3 profesores). (a) Respuestas a la pregunta "¿Hasta qué punto está contento con su experiencia?". (b) Respuestas a la pregunta "¿Qué opina de la calidad de las respuestas generadas por el tutor virtual?". (c) Respuestas a la pregunta "¿Hasta qué punto cree que ChatGMP fue capaz de entender sus preguntas y responder de forma coherente?". (d) Respuestas a la pregunta "¿Cree que este es el futuro del ejercicio de auditoría en este curso?". RQ1, RQ2 y RQ3 están en una escala en el rango 1-5, de menor a mayor. durante la auditoría. Se cree que este último comentario no es Cuadro 6 necesariamente negativo o algo a mejorar, ya que las preguntas pueden Revisión por expertos de la calidad de respuesta de las formularse de multitud de maneras y en este contexto es preferible que un respuestas dadas por ChatGMP. documento se muestre varias veces a que no se muestre lo suficiente. Muchos Correcciones T1 T2 T3 Avg. estudiantes afirman estar impresionados con la experiencia y que la calidad de las respuestas superó sus expectativas. Un estudiante describe ChatGMP No corr. (%) 53.9 62.2 53.1 56.4 como "realmente fácil de usar y muy práctico". Corr. menor (%) 34.6 27.0 12.2 24.6 En resumen, no existen differencias significativas entre los alumnos que Corr. mayor (%) 11.5 10.8 34.7 19.0 realizaron la auditoría con los profesores y ChatGMP, ambos grupos consiguieron obtener toda la información y los documentos solicitados y obtuvieron comentarios positivos en general, así como sugerencias en la Fig. 6. En la Fig. 6 (a), los tres profesores están muy contentos con la constructivas para mejorar. Esto sugiere que ChatGMP permitió a los alumnos experiencia. También piensan que la calidad de las preguntas es buena, como acceder a la misma información y al mismo número de documentos que los se muestra en la Fig. 6 (b) y que ChatGMP entendió y respondió de forma muy demás y alcanzar los objetivos de aprendizaje. Los estudiantes que inter- coherente, en la 6 (c). Además, dos de los tres profesores creen que ChatGMP actuaron con ChatGMP afirman estar satisfechos con la iniciativa y es el futuro del ejercicio de auditoría, mientras que uno cree que lo es sólo probablemente recomendarían a futuros estudiantes que realizaran la parcialmente, como se ve en 6 (d). auditoría con la herramienta digital. La Tabla 6 ofrece una evaluación cuantitativa de las respuestas dadas por ChatGMP y revisadas por los expertos. Los profesores hicieron comentarios 4.2. Resultados de la auditoría: puntos de vista de los profesores sobre las respuestas dadas y se les pidió que anotaran si no harían cambios, o si tenían correcciones menores o mayores. Los resultados muestran que la Para recabar la opinión de los expertos, así como para saber si los mayoría de las respuestas dadas no necesitan correcciones, mientras que un profesores aprobarían la experiencia proporcionada a los estudiantes a través conjunto más pequeño de respuestas necesitan correcciones menores o de la interacción con ChatGMP, se les pidió que realizaran ellos mismos un mayores. Esto proporciona evidencia adicional de que el chatbot, con ejercicio de auditoría de 45 minutos de duración. En concreto, se les pidió que pequeñas mejoras, podría ser una valiosa adición al curso y apoyar el papel de eligieran las preguntas de auditoría de uno de los grupos con los que ellos los , así como el hecho de que la calidad de las respuestas dadas es, en mismos trabajaron (en el papel de auditado). De este modo, era posible promedio, sufficientemente alta. Además, la Tabla 7 presenta más detalles comparar las respuestas dadas previamente por los profesores (cuando eran sobre las opiniones de los profesores sobre ChatGMP. Todos coinciden en que los auditados) con las respuestas de ChatGMP (como auditado). Este el chatbot puede responder bien a la mayoría de las preguntas experimento se realizó después de que los profesores hubieran terminado (aproximadamente el 80%), pero hay temas o preguntas más complejas que todos sus ejercicios de auditoría. Las opiniones de los profesores tras deberían tener una mejor respuesta. En cuanto al futuro de la auditoría, los interactuar con el chatbot son las siguientes profesores abordan esta cuestión desde una perspectiva más pedagógica, reflexionando (con razón) sobre "lo que significa 10 F. Caccavale, C.L. Gargalo, J. Kager et al. Informática y Educación: Inteligencia Artificial 8 (2025) 100354 Cuadro 7 Elaboración posterior por parte de los expertos del curso (3 profesores). Pregunta Profesor 1 Profesor 2 Profesor 3 ¿Qué opina de la calidad de las La mayoría de las preguntas estándar fueron La mayoría dieron en el clavo o al menos se Sin duda han sido buenos. Pero a veces era respuestas generadas por el bien contestadas (∼ 80%), preguntas acercaron mucho. Las que no, o en las que difícil/imposible recibir un documento tutor virtual? especiales a veces son un poco off pero a creo que se podrían hacer mejoras. (examen de gestión nº 3). A veces también veces incluso que una vez se responden de eran un poco "fluffy". una buena manera ¿Cree que este es el futuro del Véase la respuesta a continuación [...] En cuanto al futuro de las auditorías, Es un buen comienzo, pero creo que ejercicio de auditoría en este creo que este concepto es positivo y tenemos que desarrollarlo hacia una curso? factible. Si la ambición es tener una en la herramienta que pueda entender las que el profesor no esté presente, tenemos preguntas que estoy haciendo a través de que ponernos de acuerdo y definir qué audio y no de teclado. También preferiría significa esto y cómo se puede hacer. En una respuesta basada en vídeo. algún momento se planteará la cuestión del mantenimiento y el posible desarrollo del sistema. ¿Qué opina de la auditoría digital Creo que ChatGMP es capaz de dar a los Muy impresionado. Me impresionó Impresionada. Muchísimo. No esperaba una en general? ¿Le ha estudiantes material suficiente para trabajar especialmente que en muchos casos en que respuesta tan effectiva en la primera edición... impresionado o en su informe de auditoría. Tenemos que una pregunta era compleja o quizá no exacta, decepcionado? explicar con pensar en cómo podemos mantener la la respuesta era pertinente y coherente con más detalle su experiencia, situación de una auditoría real (sentados nuestros documentos. incluyendo sus pensamientos con ellos en una sala y con la presión del y reflexiones? tiempo). Si lo hacen desde casa sólo online quizás la experiencia sea diferente y no tan "real". ¿Hay algo que debamos A veces no se le dio el documento y tuve Todavía puede haber algunas preguntas Los documentos deberían ser más fáciles de mejorar? que pedirlo específicamente. Yo, como específicas (poco frecuentes) inspiradas en conseguir. Y creo que deberíamos seguir profesor, sé qué documentos de están la ICH Q7 que necesiten una respuesta entrenando el algoritmo. Entonces supongo disponibles y puedo pedirlos pertinente. Me comprometo a intentar que será más effectivo la próxima vez... específicamente estudiante no lo sabe, así hacer una lista de las mismas. Como ya se que hay una posibilidad de que no están ha mencionado, si las auditorías tienen que recibiendo aunque hacen una pregunta hacerse sin la presencia de un profesor, relacionada con ella. tenemos que plantearnos cómo. (En esta situación obviamente no podremos evaluar el rendimiento del equipo durante la auditoría). Y eventualmente habrá que elaborar las instrucciones para los equipos de cómo formular las preguntas al ChatGMP. para hacer la auditoría y cómo se puede hacer" y expresaron la necesidad de 5. Debate es- tablecer si debería ser online o debería seguir estando presente un profesor. Entre las limitaciones, de forma similar a los estudiantes, El impacto de la introducción de la IA en la educación se ha investigado experimentaron que algunos documentos eran más tediosos de mostrar y a fondo en numerosos estudios, como los de Yan et al. (2024) y Caccavale sugirieron ex- tender el conocimiento de ChatGMP sobre ciertos temas. Por et al. (2024a). Esta sección pretende reflexionar sobre la experiencia otra parte, están de acuerdo en que ChatGMP proporciona "material presentada. Se divide en cinco partes, en las que se discute lo siguiente: (i) suficientemente bueno para trabajar en su informe de auditoría" y que están los aprendizajes clave, incluidos los puntos fuertes y débiles de ChatGMP, "muy impresionados. [...] particularmente impresionados de que en muchos casos (ii) el nuevo conjunto de habilidades que deben adquirir los estudiantes, (iii) en los que una pregunta era compleja o quizá no exacta, la respuesta era algunas sugerencias para los que deseen integrar la IA en sus cursos, (iv) pertinente y coherente con nuestros documentos", y que "no esperaban una posibles problemas éticos, y (v) reflexiones finales sobre el experimento. respuesta tan eficaz en la primera edición". Por ?

Use Quizgecko on...
Browser
Browser