זהו מחקר השוואתי חתך (pilot) שבו נבדקו 6 כלים:
Heidi AI, Whisper GPT-4o, Whisper Gemini 1.5 Pro, i-scribe, Lyrebird, Twofold.
בוצעו 7 תרחישים קליניים מדומים: ניוון מקולרי של הרשתית (AMD), קטרקט, רטינופתיה סוכרתית, יובש עיני, דלקת לחמית, גלאוקומה, והיפרדות רשתית.
כל הכלים התבקשו להפיק סיכום במבנה SOAP. שלושה רופאי עיניים בכירים דירגו את הרשומות. מבחינת איכות התיעוד Heidi AI השיג את הציון הכולל הגבוה ביותר ואחריו Whisper GPT-4o.
כל הכלים הציגו טעויות, כאשר השכיחה ביותר הייתה השמטות כמו: חוסר ציון דרגת חומרת מחלה למשל staging בגלאוקומה או ברטינופתיה סוכרתית, התעלמות ממחלות עיניות נלוות או מחלות סיסטמיות (סוכרת, יתר לחץ דם), השמטת פרטי טיפול (שם טיפות, השוואת אופציות ניתוחיות, תכנית מעקב) ואי־תיעוד היבטי אמפתיה והדרכת מטופל. טעויות נוספות כללו מידע שגוי כמו: אבחנה שגויה, שמות מטופלים שגויים, טיפול שגוי או מעקב לא נכון, תוכן מיותר או הזוי כמו תוספות שלא נאמרו בשיחה (למשל רצון המטופל בניתוח), פירושי יתר (overinterpretation), וחזרתיות מיותרת. Heidi היה היחיד שלא הציג תוכן הזוי משמעותי, אך גם אצלו נמצאו השמטות.
לסיכום, כלי LLM לתיעוד מראים פוטנציאל להפחתת עומס תיעודי. עם זאת, השמטת מידע קריטי עלולה לפגוע בהחלטות קליניות ובבטיחות המטופל. קיים חשש שזמן התיקון והבקרה יפחית את יתרון היעילות.
מסקנת המחקר הייתה שנכון להיום, כלים אלה יכולים לשמש תמיכה תיעודית בלבד, ונדרשים בקרה אנושית מלאה ואימות קפדני לפני יישום קליני רחב.
Nature, Eye, March 4, 2026
ד”ר יעל שרון, רופאה בכירה במרכז הרפואי ע”ש רבין, מומחית אובאיטיס ומנתחת קטרקט. מרצה בפקולטה לרפואה, החוג לרפואת עיניים באוניברסיטת ת”א







תגובות רוצה להצטרף לדיון?
יש להתחבר כדי להגיב.
התחבראין תגובות עדיין. היה הראשון להגיב!