Deze website maakt gebruik van cookies

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien. Wij plaatsen zelf ook anonieme cookies om onze site te verbeteren. Deze gegevens worden niet aan derden verstrekt.

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien.

Online cursus OpenRefine

5. Over facetten en filters

Facetten


Facetten zijn een van de handigste functies van OpenRefine en kunnen helpen bij het verkrijgen van een overzicht van de gegevens en het verbeteren van de consistentie van de gegevens.

Een ‘Facet’ groepeert alle gegevens die zijn ingevoerd in een kolom, en stelt je vervolgens in staat om deze gegevens te filteren en tegelijkertijd gegevens in vele records tegelijk te bewerken.

Het eenvoudigste type facet wordt een 'Text facet' genoemd. Dit groepeert eenvoudig alle tekstwaarden in een kolom en geeft elk gegeven weer met het aantal records waarin het voorkomt. De facetinformatie verschijnt altijd in het linkerdeelvenster in de OpenRefine-interface.

Om een ​​text facet voor een kolom te maken, klik je op het vervolgkeuzemenu bovenaan de uitgeverskolom en kies je Facet -> Text facet. Het facet verschijnt dan in het linkerdeelvenster.

Een facet bestaat uit een lijst met gegevens (of waarden). Je kunt de weergegeven gegevens filteren door op een van deze koppen te klikken.

Je kunt meerdere gegevens van het facet tegelijk in een filter opnemen door de optie Include te gebruiken die verschijnt wanneer je met je muis over een gegeven in het facet beweegt.

Je kunt het filter ook omkeren (invert) om alle records weer te geven die niet overeenkomen met de geselecteerde gegevens of waarden. Deze optie wordt boven aan het facet menu weergegeven wanneer je een waarde in het facet selecteert om als filter toe te passen.

Oefening 4: Maak een text facet

  1. Klik op het vervolgkeuzemenu bovenaan de uitgeverskolom en kies Facet> Text facet. Het facet verschijnt dan in het linkerdeelvenster
  2. Om een ​​enkele waarde te selecteren, klik je gewoon op de relevante regel in het facet
  3. Als je meerdere waarden wilt selecteren, klik je op de optie include op de betreffende regel in het facet (die alleen verschijnt wanneer je met de muis over de lijn beweegt)
  4. Je kunt je selecties ‘omkeren’  of terugdraaien via invert om ze uit te sluiten

Oefening 5: Welke licenties worden gebruikt voor artikelen in dit bestand?

Gebruik een text facet voor de licence kolom en beantwoord deze vragen:

1. Wat is de meest voorkomende licentie in het bestand?
2. Hoeveel artikelen in het bestand hebben geen licentie toegewezen?

Gelukt? Lees dan verder voor de antwoorden.

De oplossing:

  1. Maak een facet voor de kolom 'Licence'
  2. Sorteer de gegevens via count
  3. Wat is de meest voorkomende licentie in het bestand? Antwoord: CC BY
  4. Hoeveel artikelen in het bestand hebben geen licentie toegewezen? Antwoord: 6

 

Filters

Naast het gebruik van facetten om de gegevens in OpenRefine te filteren, kun je ook ‘Text filters’ toepassen die zoeken naar een bepaald stuk tekst dat in een kolom wordt weergegeven. Tekstfilters worden toegepast door op het vervolgkeuzemenu boven aan de kolom te klikken waarop je het filter wilt toepassen en 'Text filter' te kiezen.

Net als bij facetten verschijnen de filteropties in het linkerdeelvenster in OpenRefine. Typ gewoon de tekst die je wilt gebruiken in het filter om alleen  die rijen weer te geven die die tekst bevatten in de relevante kolom.


Werken met gefilterde gegevens

Let op: wanneer je de gegevens hebt gefilterd die worden weergegeven in OpenRefine, zijn alle bewerkingen die je uitvoert alleen van toepassing op de rijen die overeenkomen met het filter - dat zijn de gegevens die op dat moment worden weergegeven. Om zeker te weten dat je werkt met de gegevens die je wilde selecteren, controleer je het aantal overeenkomende records dat boven de gegevenstabel wordt weergegeven.

Andere soorten facetten

Naast ‘Tekstfacetten’ ondersteunt Refine ook een reeks andere typen facetten:

  • Numerieke facetten
  • Tijdlijn facetten (voor datums)
  • Scatterplot-facetten (spreidingsdiagrammen)
  • Facetten op maat

Numerieke en tijdlijn facetten geven grafieken weer in plaats van zoeklijsten. De grafiek bevat knoppen  die je kunt gebruiken om een ​​begin- en eindbereik in te stellen, om zo de weergegeven gegevens te filteren.

Scatterplot-facetten worden minder vaak gebruikt. Voor meer informatie hierover zie de tutorial op https://web.archive.org/web/20190105063215/http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial#Exploring_the_data_with_scatter_plots.

Facetten op maat zijn een reeks verschillende soorten facetten. Zoals:

  • Woordfacet - dit facet verdeelt tekst in woorden en telt het aantal records waarin elk woord voorkomtDuplicatie facet - dit resulteert in een facet van ‘true’ of ‘false’. Rijen verschijnen in het 'True'-facet als de waarde in de geselecteerde kolom exact overeenkomt met een waarde in dezelfde kolom in een andere rij
  • Tekstlengte facet - maakt een numeriek facet op basis van de lengte (aantal tekens) van de tekst in elke rij voor de geselecteerde kolom. Dit kan handig zijn voor het opsporen van onjuiste of ongebruikelijke gegevens in een veld waar specifieke lengtes worden verwacht (bijvoorbeeld als de waarden naar verwachting jaren zijn, is het waarschijnlijk dat elke rij met een tekstlengte van meer dan 4 voor die kolom onjuist is)
  • Facet by blank - een facet van ‘true’ of ‘false’ die lege cellen opspoort. Rijen verschijnen in het 'True'-facet als er geen gegevens in die kolom aanwezig zijn. Dit is handig bij het zoeken naar rijen waarin belangrijke gegevens ontbreken.

Facetten zijn bedoeld om gemeenschappelijke gegevens (waarden) te groeperen. OpenRefine beperkt het aantal toegestane waarden in één facet om ervoor te zorgen dat de software niet te traag wordt of onvoldoende geheugen heeft. Als je een facet maakt met veel unieke waarden (bijvoorbeeld een facet in een kolom 'boektitel' in een gegevensset met één rij per boek), zal het gemaakte facet erg groot zijn en kan het de toepassing vertragen. Of OpenRefine zal het facet niet creëren.

 

Oefening 6: Vind alle publicaties zonder DOI (Digital Object Identifier)

Gebruik de Facet by blank-functie om alle publicaties in deze dataset te vinden zonder een DOI.

Gelukt? Lees hier het antwoord.

De oplossing

  1. In de DOI kolom drop-down en selecteer je Facets> Customized facets> Facet by blank
  2. True betekent dat het leeg is.
  3. Selecteer include bij True in het facet om de lijst met publicaties te filteren op alleen die publicaties zonder DOI

Gegevens wijzigen via facetten

Als u een text facet maakt, kun je de gegevens (waarden) in het facet bewerken om de waarde voor meerdere records tegelijkertijd te wijzigen. Om dit te doen, beweeg je met de muis over de waarde die je wilt bewerken en klik je op de optie 'edit' (aanpassen) die wordt weergegeven.

Dit is handig voor relatief kleine facetten waar je kleine variaties kunt hebben door interpunctie of typefouten, enz. Bijvoorbeeld een kolom die alleen termen uit een beperkte lijst mag bevatten, zoals dagen van de week of maanden van het jaar.

De lijst met gegevens in het facet wordt steeds bijgewerkt terwijl je wijzigingen aanbrengt.

Oefening 7: Corrigeer de taalwaarden via een facet

Maak een text facet in de 'language' kolom en corrigeer de variatie in de EN en English.

De oplossing lees je hier:

  1. Maak een text facet in de 'language' kolom
  2. Je ziet zowel EN als English
  3. Beweeg je muis over het het gegeven 'English'
  4. Klik op edit
  5. Type EN en klik op Apply (toepassen)
  6. Zie hoe het language facet wordt bijgewerkt

Klik hier voor het volgende hoofdstuk>

 

Bron: licentie CC-BY 4.0 2016–2020 by Library Carpentry

Was deze tip interessant?

Geef hier jouw feedback of deze tip interessant is geweest voor jou.

Vertel ons waarom je deze tip niet interessant vond.

Misschien vind je dit ook interessant

Voor vrijwilligers in Zuid-Holland

Het platform ZelfDoen in Zuid-Holland is er voor vrijwilligers in groen en erfgoed. Vrijwilligersgroepen en organisaties kunnen op het platform vacatures, cursussen en andere activiteiten aanbieden.

Om deze pagina op te slaan moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je eerst een datum kiezen

Wil je nu een datum kiezen?

Nee