Deze website maakt gebruik van cookies

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien. Wij plaatsen zelf ook anonieme cookies om onze site te verbeteren. Deze gegevens worden niet aan derden verstrekt.

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien.

Online cursus OpenRefine

4. De lay out van OpenRefine

De indeling van OpenRefine

OpenRefine geeft gegevens weer in tabelvorm. Elke rij vertegenwoordigt meestal een ‘record’ in de gegevens, terwijl elke kolom een ​​type informatie weergeeft. Dit lijkt sterk op hoe je gegevens in een spreadsheet of database zou kunnen bekijken.

OpenRefine geeft slechts een beperkt aantal rijen met gegevens tegelijk weer. Je kunt het aantal aanpassen door te kiezen tussen 5, 10 (de standaard), 25 en 50 linksboven in de tabel met gegevens. Je kunt door de records navigeren met behulp van de previous/next/first/last navigatie-opties rechtsboven in de tabel met gegevens.

Werken met gegevens in OpenRefine

De meeste opties om met gegevens in OpenRefine te werken, zijn toegankelijk via vervolgkeuzemenu's bovenaan de gegevenskolommen. Wanneer je een optie in een bepaalde kolom selecteert (bijvoorbeeld om een ​​wijziging in de gegevens aan te brengen), heeft dit invloed op alle cellen in die kolom. Als je wijzigingen in meerdere kolommen wilt aanbrengen, moet je deze wijzigingen kolom voor kolom doen.

Rijen en records

OpenRefine heeft twee manieren voor het bekijken van gegevens: Rows en Records. Momenteel bevinden we ons in de modus Rows, waarbij elke rij een enkel record in de dataset vertegenwoordigt - in dit geval een artikel. In de modus 'Records' kan OpenRefine meerdere rijen aan elkaar koppelen als die behoren tot hetzelfde record.

Oefening 1: cellen splitsen

Om te zien hoe dit in de praktijk werkt, kunnen we de namen van auteurs in afzonderlijke cellen splitsen. Als je naar de kolom 'Authors' kijkt, zou je moeten kunnen zien dat er in elke cel meerdere namen zijn, gescheiden door dit symbool: (|).

Om effectief met de auteursnamen in OpenRefine te kunnen werken, moeten we elke naam in een individuele cel hebben. Om de namen in hun eigen cellen te splitsen, kunnen we een functie 'Split multi-valued cells' gebruiken.

  1. Klik op het dropdown-menu bovenaan de kolom Authors
  2. Kies Edit cells->Split multi-valued cells
  3. Typ het symbool | en klik op OK
  4. Merk op dat de rijen nog steeds opeenvolgend genummerd zijn
  5. Klik op de optie Records om over te schakelen naar de modus Records
  6. Merk op hoe de nummering is veranderd - wat aangeeft dat meerdere rijen gerelateerd zijn aan hetzelfde record.

Oefening 2: samenvoegen cellen

Nu we cellen met meerdere gegevens (waardes) kunnen splitsen, kunnen we ze ook weer samenvoegen.

Het wijzigen van, de inhoud van, de cellen zal later aan bod komen, maar voor nu kijken we hoe we cellen die eerder zijn gesplitst, weer samen kunnen voegen.

  1. Klik op het dropdown menu bovenaan de kolom 'Author'
  2. Kies Edit cells->Join multi-valued cells
  3. Typ het symbool | in.
  4. Hier specificeren we het scheidingsteken dat OpenRefine moet gebruiken om de waarden samen te voegen.
  5. Klik op OK om de Authors cellen weer samen te voegen

Je zult nu zien dat gesplitste rijen zijn verdwenen - de auteurs zijn samengevoegd tot één cel met het opgegeven scheidingsteken. Onze gegevens voor Rows en Records zullen nu hetzelfde zijn, omdat we geen kolommen meer hebben met gesplitste cellen.

6. Klik op de opties Rows en Records en kijk hoe het aantal rijen en records gelijk is

Een goed scheidingsteken kiezen

Het teken die cellen met meerdere gegevens (waarden) scheidt, wordt een scheidingsteken genoemd. Het kiezen van een goed scheidingsteken is belangrijk. In de voorbeelden hebben we gezien dat het 'pijpkarakter' (|) is gebruikt.

Het kiezen van de verkeerd teken kan tot problemen leiden. Zie het voorbeeld hieronder:

Jones, Andrew | Davis, S.

Wanneer we OpenRefine vertellen om deze cel op het symbool | te splitsen, krijgen we de volgende twee auteurs elk in hun eigen cel omdat er een enkel teken is dat ze scheidt.

Auteur 1: Jones, Andrew
Auteur 2: Davis, S.

Stel je nu voor dat de maker van het document een komma als scheidingsteken had gekozen in plaats van een |.

Jones, Andrew, Davis, S.

Kun je zien waar de ene auteur stopt en de volgende begint?

OpenRefine wordt gesplitst op elke komma die het tegenkomt, dus we eindigen met 4 auteurs, niet twee, omdat OpenRefine niet kan zeggen dat Jones, Andrew verondersteld wordt één auteur te zijn. We krijgen de volgende vier 'auteurs' omdat er drie komma's zijn die de naamdelen scheiden.

Auteur 1: Jones
Auteur 2: Andrew
Auteur 3: Davis
Auteur 4: S.

Splitsen op een komma werkt niet met auteurs omdat de namen komma's bevatten.

Bij het maken van een spreadsheet met cellen met meerdere gegevens (waarden) is het belangrijk om een ​​scheidingsteken te kiezen dat nooit in de celwaarden zelf zal verschijnen. Om deze reden is het symbool | vaak een goede keuze omdat het zelden in gegevens wordt gebruikt. Komma's, dubbele punten en puntkomma's moeten als scheidingstekens worden vermeden.

Oefening 3:  Onderwerpen splitsen en samenvoegen

Voordat je verder leest, beantwoord eerst deze twee vragen:

1. Welk scheidingsteken wordt gebruikt in de velden in de kolom 'Subjects'?
2. Hoe zou je deze onderwerpen in afzonderlijke cellen splitsen?

Oplossing:

  1. De onderwerpen zijn onderverdeeld met het | teken
  2. Om de onderwerpen in afzonderlijke cellen te splitsen, ga je als volgt te werk:
    - Klik op het dropdown-menu bovenaan de kolom 'Subjects';
    - Kies Edit cells->Split multi-valued cells;
    - Typ het | symbool en klik op ‘OK’;
    - De kolom 'Subjects' weer bij elkaar voegen

Nu de vervolgopdracht:

3. Voeg de onderwerpen weer samen. Gelukt? Lees dan verder.

De oplossing

De onderwerpen waren eerder begrensd door dit teken: |
Om de gesplitste cellen weer samen te voegen tot een enkele cel:

  1. Klik op het dropdown-menu bovenaan de kolom Subjects
  2. Kies Edit cells->Join multi-valued cells
  3. Typ het | symbool in en klik op ‘OK’

 

Klik hier voor het volgende hoofdstuk>

Bron: licentie CC-BY 4.0 2016–2020 by Library Carpentry

Was deze tip interessant?

Geef hier jouw feedback of deze tip interessant is geweest voor jou.

Vertel ons waarom je deze tip niet interessant vond.

Misschien vind je dit ook interessant

Voor vrijwilligers in Zuid-Holland

Het platform ZelfDoen in Zuid-Holland is er voor vrijwilligers in groen en erfgoed. Vrijwilligersgroepen en organisaties kunnen op het platform vacatures, cursussen en andere activiteiten aanbieden.

Om deze pagina op te slaan moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je eerst een datum kiezen

Wil je nu een datum kiezen?

Nee