Knowledgebase Dataondersteund onderwijs

 

Ik wil aan de slag met data en zoek tips

Ben je op zoek naar data over het onderwijs maar weet je niet zo goed waar je moet beginnen? Heb je specifieke vragen over bijvoorbeeld de examencijfers van een school of het aantal voortijdig schoolverlaters in een gemeente? Onderstaande wegwijzer maakt inzichtelijk welke data er te vinden zijn en waar je daarvoor moet zijn. Ben je op zoek naar data binnen een bepaald thema, kies dan in de website voor de ingang ‘Onderwerp’. Wil je weten wat voor open data er allemaal over het onderwijs te vinden zijn dan kun je het beste kijken bij ‘Sector’ of ‘Organisatie’. De data voor de tabellen en grafieken op Onderwijs in Cijfers worden door een aantal organisaties verzameld. Deze organisaties bieden vaak (een deel van) deze data openbaar aan. Daarnaast zijn er bij deze en andere organisaties nog veel meer data over het onderwijs te vinden. Op de wegwijzer is een overzicht van deze organisaties en hun aanbod te vinden.
Om het zoeken van specifieke data zoveel mogelijk te vergemakkelijken is er ook de mogelijkheid vanuit een onderwerp of de onderwijssector te zoeken. Heb je een specifieke vraag, dan kun je het best bij één van deze categoriën beginnen. De genoemde onderwerpen zijn niet allesomvattend maar bieden wel overzicht voor een aantal grote thema’s. De site onderwijs in cijfers bevat een groot aantal data sets die veel gebruikt zijn in het onderwijs. De site bevat ook een scan die gebruikt kan worden om in het onderwijs te zoeken naar de beschikbare data.

bronnen: https://www.onderwijsincijfers.nl/

Tags: Bron, Hoe

Wat verstaan we onder een goede dataset?

De kwaliteit van een dataset wordt bepaald door het doel of de vraagstelling van de onderwijsinstelling.
Bij de zoektocht naar geschikte data komt een aantal kenmerken vaak naar voren:
– Is de data al beschikbaar?
– Hebben wij, als onderwijsinstelling, de data zelf in huis?
– Is de data homogeen?
– Komt de data uit meerdere bronnen?
– Als de data uit meerdere bronnen komt, kunnen we die dan met elkaar koppelen.
– Is de data statisch of dynamisch (Statische data zijn bijvoorbeeld historische data die we uit onze kernregistratiesystemen kunnen halen. Dynamische data zijn bijvoorbeeld de studievoortgangsdata van een huidige student die dagelijks werk inlevert/ toetsen maakt enz.)?
– Zijn we op zoek naar zogenaamde harde data die vaak te vinden zijn binnen onze instellingen, zoals geslacht, geboortedatum, woonplaats, enz of zijn we geinteresseerd in zogenaamde zachte data die we kunnen vinden door het analyseren van teksten – formulieren, verslagen … In studentenvolgsystemen worden vaak diverse formulieren en verslagen opgeslagen waarin begeleiders, docenten en coaches de resultaten van studenten vastleggen, bijhouden en delen. Denk aan gespreksverslagen van studieloopbaan- en intakegesprekken, maar ook aan korte notities van telefoongesprekken in het geval van verzuim of veranderende resultaten.
– Als we gebruik maken van geagregeerde data zoals instellingen als het CBS, de DUO, enz. die vaak hanteren, is het niveau van aggregatie dan voor ons geschikt?
– Hebben we te maken met gestructureerde data die keurig in relationele databases liggen opgeslagen? Of hebben we te maken met ongestructureerde data zoals die te vinden zijn op twitter, facebook, websites, enz.

Kortom, voordat we toekomen aan de bepaling of een dataset “goed” is, zullen eerst de bovenstaande overwegingen een rol hebben gespeeld. En bij elke keuze horen vaak andere kwaliteitscriteria.

Tot slot zal de data-scientist ook zijn/haar rol spelen bij de bepaling van de kwaliteit van de data. Hierbij moet je denken aan:
begripsdefinities, meta-data, wat te doen met missing data, enz.

Als voorbeeld een datakaart met daarin een uitgebreide bronnenlijst inclusief gebruiksdoel.

Tags: Bron, Hoe

Zorg dat je het met elkaar over hetzelfde hebt. Voorbeelden: Wat is een student? Wat is verzuim? Wat is studiesucces?

Tag: Hoe

Kijk hiervoor in het stappenplan. https://xerte.deltion.nl/play.php?template_id=2910

Tag: Hoe

Ik wil weten wat definities en termen zijn

Studiedata zijn data die de studenten achterlaten tijdens het online studeren en die worden ingezet om het onderwijs te verbeteren. Bijvoorbeeld: hoe wordt het online leermateriaal gebruikt?

Met student analytics gebruiken we redelijk statische data. Denk aan gegevens over instroom van studenten, doorstroom naar de arbeidsmarkt of sociaal economische achtergrond van studenten.

Learning analytics is het meten, verzamelen, analyseren en rapporteren van en over data van leerlingen en hun context. Learning analytics heeft als doel het begrijpen en optimaliseren van het leren en de omgeving waarin dit plaatsvindt. Met learning analytics heeft de docent meer grip op online studiegedrag, zodat hij studenten beter kan ondersteunen bij het behalen van studiesucces en het voorkomen van uitval. Daarnaast helpt learning analytics bij het verbeteren van online materiaal. Data over hoe vaak, hoe lang, wanneer en hoe materiaal wordt gebruikt, geven inzicht in de vraag of het materiaal wel doet waarvoor het is bedoeld. Eigenlijk is learning analytics een logisch gevolg van online onderwijs. Het is een middel om zicht te krijgen op wat er online gebeurt.

Online onderwijs brengt een aantal grote veranderingen met zich mee. Eén ervan is dat docenten minder zicht hebben op wat studenten doen. In een lokaal zien docenten hoe het met de studenten gaat. Het is duidelijk of ze er zijn of niet, of ze meedoen en of ze hun opdrachten hebben gemaakt. In een online onderwijsomgeving ontbreekt dat overzicht grotendeels. Dat is lastig, want iedere docent vindt het belangrijk om de studenten goed te kunnen begeleiden. Het gebruik van data in het onderwijs kan hiervoor een oplossing bieden.

Key performance indicators (Nederlands: kritieke prestatie-indicatoren) zijn variabelen om de prestaties van een bedrijf, merk of product te analyseren. KPI’s worden gebruikt om het succes van een organisatie in het algemeen objectief te kunnen meten, of het succes van een bepaalde actie of campagne te peilen.

Data science is een interdisciplinair onderzoeksveld met betrekking tot wetenschappelijke methoden, processen en systemen om kennis en inzichten te onttrekken uit (zowel gestructureerde als ongestructureerde) data.

Datawetenschap is een concept om statistieken, data-analyse en aanverwante methoden te verenigen. Het maakt gebruik van technieken en theorieën ontleend aan vele disciplines binnen het brede gebied van de wiskunde, statistiek, informatiekunde, kunstmatige intelligentie en computerwetenschappen. In het bijzonder de subdomeinen van machinaal leren, classificatie, cluster-analyse, datamining, databases, en visualisatie zijn belangrijke hulpvakken.

(wordt nog gevuld) (Albert)

Big Data verwijst naar onze mogelijkheden om gebruik te maken van de steeds toenemende hoeveelheid data en deze te analyseren.

Big data worden gespecificeerd aan de hand van 5 V’s:

  • Volume: De hoeveelheid data waarmee instelling te maken krijgen, worden steeds groter. Datasets zijn vaak te groot om opgeslagen en ganalyseerd te worden.
  • Variaty: Het tweede kenmerk van Big Data is Variety dat verwijst naar aard van de data. Deze kan namelijk gestructureerd, ongestructureerd of semi-gestructureerd zijn. Bovendien zijn de data afkomstig uit veel verschillende soorten bronnen
  • Velocity: Deze term verwijst naar de snelheid waarmee nieuwe data gegenereerd worden, maar ook de acties die kunnen worden ingezet in geval van bijvoorbeeld fraude. Dan is snelheid geboden. Door gebruik te maken van big data systemen kunnen misstanden snel worden opgespoord.
  • Veracity: Dit verwijst naar de geloofwaardigheid van de data. Bij Big Data worden verschillende bronnen met een verschillende betrouwbaarheid met elkaar gecombineerd. De verschillende typen data verschillen met elkaar wat betreft kwaliteit en nauwkeurigheid en zijn daardoor minder goed controleerbaar (bijv. typfouten, spreektaal, afkortingen). Dankzij nieuwe Big Data technologieën is het mogelijk om met deze ‘messy’ data tot waardevolle resultaten te komen tijdens het analyseproces.
  • Value: Dit begrip verwijst naar de grote waarde die Big Data kunnen opleveren. Het is leuk als je toegang tot al je data hebt, maar Big Data heeft pas echt zin als je er waarde uit kunt halen.

Machine Learning is een onderdeel dat zijn oorsprong kent vanuit het vakgebied Kunstmatige Intelligentie (AI). Bij een datagedreven aanpak wordt Machine Learning vaak ingezet om op een geautomatiseerde manier patronen en relaties te zoeken in grote en/of complexe hoeveelheden gegevens.

De methoden en technieken van Machine Learning zijn sterk gerelateerd aan die van de statistiek. De resultaten van Machine Learning, zoals (voorspel)modellen, slimme algoritmes of implementaties in programma’s, onderscheiden zich doordat ze in de tijd steeds slimmer/beter worden. Ruwweg geldt dat hoe meer data je gebruikt om een Machine Learning model te voeden hoe meer en betere patronen en relaties er gevonden worden.

Dankzij Machine Learning kunnen we complexe, heterogene en ongestructureerde data analyseren en daaruit inzichten halen die eerder niet mogelijk waren. Machine Learning is vooral bekend geworden door de grote succesen die behaald zijn met zogenaamde Big Data projecten. In het onderwijs zal de complexe, heterogene en ongestructureerde data voor een groot deel afkomstig zijn van studenten en de leeromgeving. Formatieve studieresultaten, werkstukken, video’s, social media, websites, data uit de Digitale Leeromgeving, enz.

De twee belangrijkste vormen van Machine Learning zijn supervised learning en unsupervised learning. Weet je bij de één naar welke gewenste output (supervised) je op zoek bent, bij de ander (unsupervised) heb je geen gewenste uitvoer maar zoek je naar onontdekte verbanden en structuren.

Supervised learning
Hierbij voed je een Machine Learning model met voorbeelden van invoer en bijbehorende uitvoer. Een onderwijsvoorbeeld zou kunnen zijn dat je op basis van historische studentgegevens (invoer) wil gaan voorspellen of een student risico loopt in de toekomst uit te vallen of niet (uitvoer). Een supervised model leert aldus op basis van voorbeelden uit het verleden hoe de eigenschappen van de invoer bepalend zijn voor de uitvoer. Na de leerfase kan het algoritme ook voor nieuwe invoer zelfstandig de juiste uitvoer produceren. Voorbeelden van supervised learning zijn classificatie, regressie, beslisboomalgoritmes, enz.

Unsupervised learning
Bij deze vorm van leren zijn er geen voorbeelden van de gewenste uitvoer; het algoritme moet zelf een (verborgen) structuur in de gegeven invoer ontdekken. Onderwijsvoorbeelden zijn bijvoorbeeld te vinden in differentiatie/maatwerk trajecten waarbij je op zoek bent naar verbanden/ clusters van relevante studentkenmerken. Voorbeelden van unsupervised learning vind je dan ook in de hoek van clusteranalyses, studentsegmetering, aanbod/arbeidsmarktsegmenten enz…

Bronnen:
https://www.tottadatalab.nl/2017/05/04/random-forest/nhttps://www.youtube.com/watch?v=D_2LkhMJcfY

https://tweakers.net/reviews/5901/1/neurale-netwerken-de-beslissende-kracht-achter-internet-neurale-netwerken-zijn-overal.html

https://www.passionned.nl/bi/predictive-analytics/neuraal-netwerk/#article

Ik wil aan de slag met marktpartijen en pakketten

Data-analyse kan veel bruikbare informatie opleveren voor de school. Maar welke tools zet de school in om deze data te benutten? De ‘marktscan data-analyse’ helpt bestuurders, ict-coördinatoren en informatiemanagers de juiste tool kiezen.
Marktscan data-analyse: https://www.kennisnet.nl/artikel/6759/aan-de-slag-met-data-analyse-welke-tools-zijn-er-voor-jouw-school/

Tag: Hoe

Ik wil weten wat modellen en denkkaders zijn

Learning analytics is het meten, verzamelen, analyseren en rapporteren van en over data van leerlingen en hun context. Learning analytics heeft als doel het begrijpen en optimaliseren van het leren en de omgeving waarin dit plaatsvindt.

Met Student analytics gebruiken we minder veranderlijke data. Denk aan gegevens over instroom van studenten, doorstroom naar de arbeidsmarkt of sociaal economische achtergrond van studenten.

Descriptieve analytics: Descriptive analytics draait om het verleden; je gaat na wat er de afgelopen tijd gebeurd is.

Diagnostische analytics: Daarbij gaat het, waarom is iets gebeurd?

Predictieve analytics: Als je weet wat er in het verleden is gebeurd (en waarom!) kun je vaak ook een inschatting maken over hetgeen dat komen gaat.

Prescriptieve analytics: In de laatste fase ga je niet alleen voorspellen wat er in de toekomst gaat gebeuren, maar ook wat je concreet moet doen om deze toekomst zo rooskleurig mogelijk te maken.

Ik wil weten hoe anderen het hebben gedaan

Er wordt datagedreven onderzoek naar de leerloopbaan van studenten gedaan. Hiervoor wordt de data die door scholen en partijen zoals DUO, SBB, gemeenten en CBS wordt verzameld, gebruikt.

Onderzoeksvragen en opgedane inzichten vind je hier: https://datagedrevenonderzoekmbo.nl/

Live interactief dashboard van data initiatieven in het mbo https://edu.nl/9w8h8

Wil je ook dat jouw initiatieven in het dashbiard worden opgenomen, ga dan naar https://edu.nl/wgdfe en vul het formulier in.

Ik wil aan de slag met richtlijnen en kaders

Data-ethiek gaat over een bewuste, reflectieve omgang met data, waarin de wenselijkheid van het datagebruik en de doelen ervan wordt bevraagd. Hiervoor is geen pasklaar format, maar zijn wel handvatten te geven. Men kan de eenvoudige drietrapsvraag stellen (kan, mag, wil) en een aantal waarden centraal stellen in de overweging.

Bronnen:

VU ethisch kader:
https://www.vu.nl/nl/Images/Code-of-practice-privacy-ethiek-SA2017_v1_CC_tcm289-878414.pdf

Kennisnet, waarden wegen
https://www.kennisnet.nl/app/uploads/kennisnet/publicatie/Kennisnet-Ethiekkompas-Waardenwegen.pdf

Jisc code of practice
https://www.jisc.ac.uk/guides/code-of-practice-for-learning-analytics

Start je binnenkort een BI- of Analytics-traject waarbij persoonsgegevens worden verwerkt en wil je weten of je een Data Protection Impact Assessment (DPIA) dient uit te voeren? Aan de hand van deze checklist kun je bepalen of je een DPIA nodig hebt.

Verwerkingen van persoonsgegevens in een BI & Analytics-context kennen specifieke privacyrisico’s die anders zijn dan in primaire bedrijfsprocessen. Vaak worden grote hoeveelheden persoonsgegevens met elkaar gecombineerd, voor veel verschillende doeleinden gebruikt en voor een groot aantal eindgebruikers beschikbaar gesteld. Treedt er een datalek op of krijg je te maken met oneigenlijk gebruik van de gegevens? Dan is de impact groot.

Met een DPIA beoordeel je de consequenties en risico’s van de verwerking voor de privacy van de betrokkenen, zodat je passende maatregelen kunt nemen.

Checklist:
DPIA in een BI & Analytics-context
De Europese privacytoezichthouders hebben een lijst met negen
criteria opgesteld om te beoordelen of een voorgenomen
verwerking van persoonsgegevens een hoog privacyrisico
DPIA moet uitvoeren als een verwerking aan twee of meer van deze criteria voldoet.
checklist: https://www.hotitem.nl/wp-content/uploads/2020/01/e-paper483765-Checklist-Wanneer-is-een-DPIA-verplicht-in-een-BI-omgeving-Hot-ITem.pdf

Tag: Hoe

Ik wil aan de gang met stappenplannen en werkwijzen

Het data Wheel of science is een tool dat gebruikt kan worden voor het opzetten van data vraagstukken. Het wiel toont van binnen naar buiten en met de klok mee: wat de hoofdactiviteiten zijn, welke onderliggende activiteiten van belang zijn, welke capaciteiten er in een onderwijsorganisatie nodig zijn, en welke kernwaarden voorop staan. Bij een nieuw project beginnen we niet bij nul: er is al veel bestaand onderzoeksmateriaal dat aanwezig is vanuit het onderwijs of eerder beleid (oranje). Die gegevens vormen de basis voor stap 1 (paars): het verzamelen van beschikbare data. In stap 2 (blauw) analyseren we die gegevens, om in stap 3 (oranje) het onderwijs of beleid bij te sturen waar dat nodig en zinvol is.

Bronnen: https://versnellingsplan.nl/publicatie/modellen-studiedata/

 

Tag: Hoe

Stap 1: Creeer focus 
Bepaal als instelling wat je eerst wilt bereiken d.m.v. data ondersteund werken.


Stap 2: Informatiebehoeften 
Inventariseer de informatiebehoeften vanuit de stakeholders
Start bijv. met behulp van de wheel of science een pilot, Kies een toepassing van het data ondersteund werken.


Stap 3: Data
Inventariseer welke data aanwezig is binnen je instelling (brondata)
Verzamel de benodigde brondata
Wanneer de gewenste data niet intern aanwezig is zoek deze extern
Beoordeel de toepasbaarheid van de verzamelde data


Stap 4: Van data naar inzicht
Bepaal je startpunt
Doe een datavolwassenheidsscan nulmeting t.o.v. uitgesproken ambitie en doelen
Bijv. Readiness Scan Studiedata Versnellingsplan
Bepaal als instelling een integrale datastrategie: Input voor deze datastrategie is het resultaat van de datavolwassenheidsscan
Een datastrategie is de weg en investering in hoe je doel in het data ondersteund werken wilt bereiken.


Stap 5: Groeien in je ambitie en doelen 
Blijf monitoren! Controleer het resultaat van je pilots!
Het resultaat van een pilot kan input zijn voor een nieuwe pilot!


Korte en overzichtelijke stappen nemen om de gewenste subdoelen te bereiken: https://xerte.deltion.nl/play.php?template_id=2910

Tag: Hoe

Ethische beoordeling van een concreet onderzoek.

Voor enkele projecten of een groot project kun je de Sheila methodiek gebruiken.

Enkele projecten of een groot project:
https://sheilaproject.eu/

Sheilaframework v2 pdf met te doorlopen stappen:
https://sheilaproject.eu/sheila-framework/

Tags: Ethiek, Hoe

Het Ethiekkompas is bedoeld voor iedereen in het onderwijs die te maken heeft met ethische vraagstukken rond digitalisering.
Ethiek gaat over het goede handelen. Daarbij staan waarden centraal.

Hulpvragen om te ontdekken of je met een ethische vraag te maken hebt

Roept de vraag een bepaalde intuïtie over goed of kwaad of een emotie op?
Staan er waarden op het spel en waarom is dat het geval?
Kan iemand (of een bepaalde groep) er schade van ondervinden?
bronnen:
https://wijzer.kennisnet.nl/ethiekkompas

Tags: Docent, Ethiek, Hoe

Ethische beoordeling van een concreet onderzoek: Voor een eenmalig klein project:

De ethische data assistent (DEDA) helpt data-analisten, projectmanagers en beleidsmakers om ethische problemen in dataprojecten, datamanagement en databeleid te herkennen.
DEDA is in nauwe samenwerking met data-analisten van de Gemeente Utrecht ontwikkeld en bestaat uit een toolkit die helpt bij het in kaart brengen van ethische kwesties bij dataprojecten, bij het documenteren van het beraadslagingsproces en bij de bevordering van de verantwoording aan de diverse stakeholders en het publiek.
DEDA bestaat uit een worksheet voor brainstormsessies, een interactieve vragenlijst en een handleiding. Alle tools zijn gepubliceerd door de Utrecht Data School van de Universiteit Utrecht.
Voor enkele projecten of een groot project kun je de Sheila methodiek gebruiken

Bronnen

DEDAtool voor een concreet (klein) project
https://dataschool.nl/deda

Tags: Docent, Ethiek, Hoe

Load More