Blogs

AI en Onderwijs: Een Experimentele Blik op Audio-opnames

De afgelopen 2 weken is er een hoop tumult ontstaan over de ‘pendant’ van Rewind AI, een ketting die elk gesprek kan opnemen en transcriberen. In plaats van hier slechts over te filosoferen heb ik een experiment gedraaid om te beoordelen hoe zoiets nu al werkt en wat de use cases zijn binnen de onderwijspraktijk.

Als experiment heb ik vorige week nagenoeg al mijn lessen en werkafspraken in audio opgenomen. Vaak via mijn telefoon, maar soms ook via Teams. Al deze mp3-bestanden heb ik getranscribeerd met Whisper en uiteindelijk laten analyseren door Claude 2 en GPT-4. Dit gedeelte was super simpel en zo gedaan.

Echter, de output van de taalmodellen was niet voldoende. Soms misten er belangrijke delen in de samenvatting en het kon niet goed tracken WIE er wat had gezegd.

Enkele redenen waarom het nog niet goed werkt:

–          GPT-4 heeft slechts een beperkte verwerkingscapaciteit (‘context window’). Langere gesprekken gaan al snel over deze capaciteit heen waardoor het dingen vergeet. De verwerkingscapaciteit van Claude 2 is een stuk groter maar dit taalmodel is duidelijk minder krachtig.

–          De taalmodellen missen bepaalde context en informatie. Taalmodellen hebben heel veel “kennis” over algemene zaken maar zijn natuurlijk niet op de hoogte van alle afspraken en informatie binnen mijn onderwijscontext. Hierdoor gaat het soms hallucineren en slaat het de plank volledig mis.

–          Whisper transcribeert behoorlijk goed. Ik denk dat het zo’n 95% van de woorden goed transcribeert. Wat het echter niet doet, is aangeven WIE er wat heeft gezegd. Zeker in gesprekken met meerdere mensen leidt dit soms tot vreemde output als we dit gaan analyseren.

Een gefaald experiment dus en ik zou niet aanraden dit te gebruiken op de korte termijn. Echter, over een jaar kan dit er heel anders uitzien. Er wordt namelijk hard gewerkt om alle bovenstaande problemen op te lossen: Er komen grotere context windows (via API kan GPT-4 bijvoorbeeld nu al 32k aan); via Copilot zullen taalmodellen de lokale context wél meekrijgen; en o.a. Microsoft Teams en Zoom zijn hard aan het werk om ervoor te zorgen dat het wel duidelijk is WIE er wat heeft gezegd.

Ik kijk uit naar een toekomst waar dit wel werkt. Zeker gezien we als docenten steeds meer een rol krijgen als begeleider/coach i.p.v. informatie zenden. Ik kan me voorstellen dat ik bij het begeleiden van groepjes Microsoft Teams open zet om het gesprek op te nemen, automatisch te laten transcriberen en omzetten in een goede samenvatting en actiepunten. Of sterker nog, dit moeten de studenten natuurlijk doen, waarbij ze meteen gaan checken of ze het eens zijn met de output van het taalmodel. En die informatie delen ze dan met mij. Lijkt mij een hele logische werkwijze. Niet alleen voor het onderwijs maar in veel beroepspraktijken. Maar voor nu zullen we nog even moeten wachten.

Scroll to Top