{rfName}
Ap

Llicència i ús

Icono OpenAccess

Citacions

3

Altmetrics

Anàlisi d'autories institucional

Garcia Sanchez, Francisco JavierAutor o coautor

Compartir

19 demarç de 2025
Publicacions
>
Article

Application of Artificial Intelligence as an Aid for the Correction of the Objective Structured Clinical Examination (OSCE)

Publicat a: Applied Sciences-Basel. 15 (3): 1153- - 2025-02-01 15(3), DOI: 10.3390/app15031153

Autors:

Luordo, Davide; Torres Arrese, Marta; Tristan Calvo, Cristina; Shani Shani, Kirti Dayal; Rodriguez Cruz, Luis Miguel; Garcia Sanchez, Francisco Javier; Lagares Gomez-Abascal, Alfonso; Rubio Garcia, Rafael; Delgado Jimenez, Juan; Perez Carreras, Mercedes; Diez Lobato, Ramiro; Granizo Martinez, Juan Jose; Tung-Chen, Yale; Villena Garrido, Ma Victoria
[+]

Afiliacions

12 Octubre Univ Hosp, Madrid 28041, Spain - Autor o coautor
Alcorcon Fdn Hosp, Alcorcon 28922, Spain - Autor o coautor
Autonomous Univ Madrid, Dept Med, Madrid 29040, Spain - Autor o coautor
Infanta Cristina Univ Hosp, Madrid 28981, Spain - Autor o coautor
Univ Complutense Madrid, Dept Med, Madrid 28040, Spain - Autor o coautor
Veure més

Resum

The assessment of clinical competencies is essential in medical training, and the Objective Structured Clinical Examination (OSCE) is an essential tool in this process. There are multiple studies exploring the usefulness of artificial intelligence (AI) in medical education. This study explored the use of the GPT-4 AI model to grade clinical reports written by students during the OSCE at the Teaching Unit of the 12 de Octubre and Infanta Cristina University Hospitals, part of the Faculty of Medicine at the Complutense University of Madrid, comparing its results with those of human graders. Ninety-six (96) students participated, and their reports were evaluated by two experts, an inexperienced grader, and the AI using a checklist designed during the OSCE planning by the teaching team. The results show a significant correlation between the AI and human graders (ICC = 0.77 for single measures and 0.91 for average measures). AI was more stringent, assigning scores on an average of 3.51 points lower (t = -15.358, p < 0.001); its correction was considerably faster, completing the analysis in only 24 min compared to the 2-4 h required by human graders. These results suggest that AI could be a promising tool to enhance efficiency and objectivity in OSCE grading.
[+]

Paraules clau

Ai in healthcareAi-assisted gradingArtificial intelligenceClinical competency assessmentDigital osce evaluationHuman-ai comparison in gradingHuman–ai comparison in gradingMedical educationMedical report evaluatioMedical report evaluationObjective structured clinical examination (osce)

Indicis de qualitat

Impacte bibliomètric. Anàlisi de la contribució i canal de difusió

El treball ha estat publicat a la revista Applied Sciences-Basel a causa de la seva progressió i el bon impacte que ha aconseguit en els últims anys, segons l'agència WoS (JCR), s'ha convertit en una referència en el seu camp. A l'any de publicació del treball, 2025, es trobava a la posició 50/179, aconseguint així situar-se com a revista Q2 (Segundo Cuartil), en la categoria Engineering, Multidisciplinary. Destacable, igualment, el fet que la revista està posicionada en el Cuartil Q2 para la agencia Scopus (SJR) en la categoría Engineering (Miscellaneous).

[+]

Impacte i visibilitat social

Des de la dimensió d'influència o adopció social, i prenent com a base les mètriques associades a les mencions i interaccions proporcionades per agències especialitzades en el càlcul de les denominades "Mètriques Alternatives o Socials", podem destacar a data 2026-04-05:

  • L'ús, des de l'àmbit acadèmic evidenciat per l'indicador de l'agència Altmetric referit com a agregacions realitzades pel gestor bibliogràfic personal Mendeley, ens dona un total de: 42.
  • L'ús d'aquesta aportació en marcadors, bifurcacions de codi, afegits a llistes de favorits per a una lectura recurrent, així com visualitzacions generals, indica que algú està fent servir la publicació com a base del seu treball actual. Això pot ser un indicador destacat de futures cites més formals i acadèmiques. Aquesta afirmació està avalada pel resultat de l'indicador "Capture", que aporta un total de: 42 (PlumX).

Amb una intenció més de divulgació i orientada a audiències més generals, podem observar altres puntuacions més globals com:

  • El Puntuació total de Altmetric: 7.
  • El nombre de mencions a la xarxa social X (abans Twitter): 10 (Altmetric).

És fonamental presentar evidències que recolzin l'alineació plena amb els principis i directrius institucionals sobre Ciència Oberta i la Conservació i Difusió del Patrimoni Intel·lectual. Un clar exemple d'això és:

  • El treball s'ha enviat a una revista la política editorial de la qual permet la publicació en obert Open Access.
  • Assignació d'un Handle/URN com a identificador dins del Dipòsit en el Repositori Institucional: http://hdl.handle.net/20.500.14352/122244
[+]

Objectius del projecte

La aportación persigue los siguientes objetivos: analizar la aplicabilidad del modelo de inteligencia artificial GPT-4 para la corrección de informes clínicos en el examen OSCE; comparar los resultados de la corrección automática con la evaluación realizada por expertos humanos y un evaluador inexperto; determinar la correlación entre las calificaciones otorgadas por la inteligencia artificial y los evaluadores humanos, evidenciada por un ICC de 0.77 en medidas individuales y 0.91 en medidas promedio; evaluar la rigurosidad del sistema AI, que asignó puntuaciones en promedio 3.51 puntos más bajas (t = -15.358, p < 0.001); y valorar la eficiencia temporal, destacando que la corrección automática se realizó en 24 minutos frente a las 2-4 horas humanas.
[+]

Resultats més rellevants

El estudio evaluó la aplicación del modelo de inteligencia artificial GPT-4 para la corrección de informes clínicos en el OSCE, comparando sus resultados con los de evaluadores humanos. Se observó una correlación significativa entre la IA y los expertos, con un coeficiente de correlación intraclase (ICC) de 0.77 para medidas individuales y 0.91 para medidas promedio. La IA mostró mayor rigurosidad, asignando puntuaciones en promedio 3.51 puntos inferiores (t = -15.358, p < 0.001). Además, la corrección realizada por la IA fue sustancialmente más rápida, completándose en 24 minutos frente a las 2-4 horas necesarias para los evaluadores humanos. Estos resultados evidencian la eficacia y rapidez del uso de IA en la evaluación clínica.
[+]

Reconeixements vinculats a l’ítem

The funding for this study was provided by the Spanish Society for Medical Education (SEDEM) through Grant 3/2024.
[+]