Hoe werkt clustering in OpenRefine?
De Cluster-functie groepeert vergelijkbare, maar inconsistente gegevens (waarden) in een bepaalde kolom. Je kunt deze inconsistente gegevens samenvoegen en maken tot een enkele, definitieve, waarde die het wel moet zijn.
De clusterfunctie is dus handig wanneer je gegevens hebt met kleine variaties in, b.v. namen van mensen, organisaties, plaatsen, etc.
Om de functie ‘Cluster’ te gebruiken, klik je op de menuoptie Edit Cells in de relevante kolom en kies je voor Cluster and edit ...
De ‘Clusters’ worden automatisch aangemaakt volgens een algoritme. OpenRefine ondersteunt een aantal verschillende algoritmen. Er kan wat experimenteren nodig zijn om te zien welk algoritme het beste werkt met een bepaalde set gegevens.
Voor meer informatie over de methoden die worden gebruikt om clusters te maken, zie https://github.com/OpenRefine/OpenRefine/wiki/Clustering-In-Depth (Engels)
Je kunt voor elk cluster gegevens (waarden) samenvoegen, dat wil zeggen de verschillende inconsistente gegevens te vervangen door een enkele consistente waarde. Standaard gebruikt OpenRefine de meest voorkomende waarde in het cluster als de nieuwe voorgestelde waarde. Maar je kunt een andere waarde selecteren door op de waarde zelf te klikken, of je typt eenvoudig de gewenste waarde in het vak 'New Cell Value'.
Oefening 8: Gebruik de Clusteren functie om auteursgegevens op te schonen
- Splits de namen van de auteurs in individuele cellen met behulp van Edit cells -> Split multi-valued cells, gebruik het teken | als scheidingsteken.
- Kies Edit cells -> Cluster and edit vanuit de kolom ‘authors’.
- Gebruik de key collision-methode met de fingerprint keying function, en voeg gegevens samen waar nodig, tot één waarde
- Probeer de gebruikte methode te veranderen - welke werken goed?
Klik hier voor het volgende hoofdstuk>
Bron: licentie CC-BY 4.0 2016–2020 by Library Carpentry