De indeling van OpenRefine
OpenRefine geeft gegevens weer in tabelvorm. Elke rij vertegenwoordigt meestal een ‘record’ in de gegevens, terwijl elke kolom een type informatie weergeeft. Dit lijkt sterk op hoe je gegevens in een spreadsheet of database zou kunnen bekijken.
OpenRefine geeft slechts een beperkt aantal rijen met gegevens tegelijk weer. Je kunt het aantal aanpassen door te kiezen tussen 5, 10 (de standaard), 25 en 50 linksboven in de tabel met gegevens. Je kunt door de records navigeren met behulp van de previous/next/first/last navigatie-opties rechtsboven in de tabel met gegevens.
Werken met gegevens in OpenRefine
De meeste opties om met gegevens in OpenRefine te werken, zijn toegankelijk via vervolgkeuzemenu's bovenaan de gegevenskolommen. Wanneer je een optie in een bepaalde kolom selecteert (bijvoorbeeld om een wijziging in de gegevens aan te brengen), heeft dit invloed op alle cellen in die kolom. Als je wijzigingen in meerdere kolommen wilt aanbrengen, moet je deze wijzigingen kolom voor kolom doen.
Rijen en records
OpenRefine heeft twee manieren voor het bekijken van gegevens: Rows en Records. Momenteel bevinden we ons in de modus Rows, waarbij elke rij een enkel record in de dataset vertegenwoordigt - in dit geval een artikel. In de modus 'Records' kan OpenRefine meerdere rijen aan elkaar koppelen als die behoren tot hetzelfde record.
Oefening 1: cellen splitsen
Om te zien hoe dit in de praktijk werkt, kunnen we de namen van auteurs in afzonderlijke cellen splitsen. Als je naar de kolom 'Authors' kijkt, zou je moeten kunnen zien dat er in elke cel meerdere namen zijn, gescheiden door dit symbool: (|).
Om effectief met de auteursnamen in OpenRefine te kunnen werken, moeten we elke naam in een individuele cel hebben. Om de namen in hun eigen cellen te splitsen, kunnen we een functie 'Split multi-valued cells' gebruiken.
- Klik op het dropdown-menu bovenaan de kolom Authors
- Kies Edit cells->Split multi-valued cells
- Typ het symbool | en klik op OK
- Merk op dat de rijen nog steeds opeenvolgend genummerd zijn
- Klik op de optie Records om over te schakelen naar de modus Records
- Merk op hoe de nummering is veranderd - wat aangeeft dat meerdere rijen gerelateerd zijn aan hetzelfde record.
Oefening 2: samenvoegen cellen
Nu we cellen met meerdere gegevens (waardes) kunnen splitsen, kunnen we ze ook weer samenvoegen.
Het wijzigen van, de inhoud van, de cellen zal later aan bod komen, maar voor nu kijken we hoe we cellen die eerder zijn gesplitst, weer samen kunnen voegen.
- Klik op het dropdown menu bovenaan de kolom 'Author'
- Kies Edit cells->Join multi-valued cells
- Typ het symbool | in.
- Hier specificeren we het scheidingsteken dat OpenRefine moet gebruiken om de waarden samen te voegen.
- Klik op OK om de Authors cellen weer samen te voegen
Je zult nu zien dat gesplitste rijen zijn verdwenen - de auteurs zijn samengevoegd tot één cel met het opgegeven scheidingsteken. Onze gegevens voor Rows en Records zullen nu hetzelfde zijn, omdat we geen kolommen meer hebben met gesplitste cellen.
6. Klik op de opties Rows en Records en kijk hoe het aantal rijen en records gelijk is
Een goed scheidingsteken kiezen
Het teken die cellen met meerdere gegevens (waarden) scheidt, wordt een scheidingsteken genoemd. Het kiezen van een goed scheidingsteken is belangrijk. In de voorbeelden hebben we gezien dat het 'pijpkarakter' (|) is gebruikt.
Het kiezen van de verkeerd teken kan tot problemen leiden. Zie het voorbeeld hieronder:
Jones, Andrew | Davis, S.
Wanneer we OpenRefine vertellen om deze cel op het symbool | te splitsen, krijgen we de volgende twee auteurs elk in hun eigen cel omdat er een enkel teken is dat ze scheidt.
Auteur 1: Jones, Andrew
Auteur 2: Davis, S.
Stel je nu voor dat de maker van het document een komma als scheidingsteken had gekozen in plaats van een |.
Jones, Andrew, Davis, S.
Kun je zien waar de ene auteur stopt en de volgende begint?
OpenRefine wordt gesplitst op elke komma die het tegenkomt, dus we eindigen met 4 auteurs, niet twee, omdat OpenRefine niet kan zeggen dat Jones, Andrew verondersteld wordt één auteur te zijn. We krijgen de volgende vier 'auteurs' omdat er drie komma's zijn die de naamdelen scheiden.
Auteur 1: Jones
Auteur 2: Andrew
Auteur 3: Davis
Auteur 4: S.
Splitsen op een komma werkt niet met auteurs omdat de namen komma's bevatten.
Bij het maken van een spreadsheet met cellen met meerdere gegevens (waarden) is het belangrijk om een scheidingsteken te kiezen dat nooit in de celwaarden zelf zal verschijnen. Om deze reden is het symbool | vaak een goede keuze omdat het zelden in gegevens wordt gebruikt. Komma's, dubbele punten en puntkomma's moeten als scheidingstekens worden vermeden.
Oefening 3: Onderwerpen splitsen en samenvoegen
Voordat je verder leest, beantwoord eerst deze twee vragen:
1. Welk scheidingsteken wordt gebruikt in de velden in de kolom 'Subjects'?
2. Hoe zou je deze onderwerpen in afzonderlijke cellen splitsen?
Oplossing:
- De onderwerpen zijn onderverdeeld met het | teken
- Om de onderwerpen in afzonderlijke cellen te splitsen, ga je als volgt te werk:
- Klik op het dropdown-menu bovenaan de kolom 'Subjects';
- Kies Edit cells->Split multi-valued cells;
- Typ het | symbool en klik op ‘OK’;
- De kolom 'Subjects' weer bij elkaar voegen
Nu de vervolgopdracht:
3. Voeg de onderwerpen weer samen. Gelukt? Lees dan verder.
De oplossing
De onderwerpen waren eerder begrensd door dit teken: |
Om de gesplitste cellen weer samen te voegen tot een enkele cel:
- Klik op het dropdown-menu bovenaan de kolom Subjects
- Kies Edit cells->Join multi-valued cells
- Typ het | symbool in en klik op ‘OK’
Klik hier voor het volgende hoofdstuk>
Bron: licentie CC-BY 4.0 2016–2020 by Library Carpentry