Deze website maakt gebruik van cookies

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien. Wij plaatsen zelf ook anonieme cookies om onze site te verbeteren. Deze gegevens worden niet aan derden verstrekt.

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien.

Online cursus OpenRefine

10. Types tekst, getallen, data en booleaans

Elk stukje data in OpenRefine heeft een ‘type’. Het meest voorkomende ‘type’ is een ‘string’ - dat is een stuk tekst. Er zijn echter nog andere gegevenstypen beschikbaar en met transformaties kun je waar gegevens van het ene type naar het andere converteren. De ondersteunde gegevenstypen zijn:

  • String (stuk tekst)
  • Aantal
  • Datum
  • Boolean
  • Array of reeks (zie het volgende hoofdstuk)

Datums en nummers

Tot dusver hebben we alleen gekeken naar gegevens van het type 'String'. Vaak is het mogelijk getallen en datums als 'strings' te behandelen. In de kolom Datum hebben we bijvoorbeeld de publicatiedatum weergegeven als een tekenreeks. Sommige bewerkingen en transformaties werken echter alleen op bewerkingen van het type ‘nummer’ of ‘datum’. Het eenvoudigste voorbeeld is het sorteren van gegevens of waarden in numerieke of datumvolgorde. Om deze functies uit te voeren, moeten we eerst de waarden naar een datum of getal converteren.

Oefening 11: Formatteer de datum opnieuw

  1. Zorg ervoor dat je alle facetten en filters verwijder
  2. Gebruik in de datumkolom het vervolgkeuzemenu om Edit cells -> Transform te selecteren
  3. Typ in het vak ‘Expressie’ de GREL- formule value.toDate("dd/MM/jjjj") en druk op OK.
  4. Merk op hoe de waarden nu in het groen worden weergegeven in het standaard weergave formaat ISO 8601. Dit betekent dat de datums nu zijn opgeslagen als datumgegevenstype in OpenRefine. We kunnen nu functies uitvoeren die specifiek zijn voor Datums
  5. Selecteer in de vervolgkeuzelijst Edit column->Add column based on this column. Met deze functie kun je een nieuwe kolom maken met behoud van de oude kolom.
  6. Typ in het veld 'New column name': Formatted Date
  7. Typ in het vak 'Expressions' de formule value.toString("dd MMMM jjjj")

 

Boolean

Een ‘Boolean’ is een waarde die ‘true’ of ‘false’ kan zijn. Booleaanse waarden kunnen rechtstreeks in de OpenRefine-cel worden gebruikt, maar worden vaker gebruikt in transformaties als onderdeel van een GREL-formule.

Bijvoorbeeld de GREL-formule value.contains("test") genereert een booleaanse waarde van ‘true’ of ‘false’, afhankelijk van of de huidige waarde in de cel de tekst ‘test’ ergens bevat.

Dergelijke tests kunnen worden gecombineerd met andere GREL-formules om complexere transformaties te creëren. Bijvoorbeeld om een ​​verdere transformatie alleen uit te voeren als een test succesvol is.

De GREL-transformatie if(value.contains("test"),"Test data",value) vervangt een celwaarde alleen door de woorden "Test data" als de waarde in de cel ergens de tekenreeks "test" bevat.

Oefening 12: Vind omgekeerde auteursnamen

In deze oefening gaan we het Booleaanse gegevenstype gebruiken. Als je naar de kolom Authors kijkt, zie je dat de meeste auteursnamen in de natuurlijke volgorde zijn geschreven (voornaam, achternaam). Een paar zijn echter omgedraaid om de achternaam op de eerste plaats te zetten.

We kunnen een ruwe test uitvoeren voor omgekeerde auteursnamen door te zoeken naar namen die een komma bevatten:

  1. Zorg ervoor dat je de auteursnamen al in afzonderlijke cellen hebt opgesplitst met behulp van Edit cells->Split multi-valued cells
  2. Gebruik in de kolom Authors het vervolgkeuzemenu en selecteer Facet->Custom text facet...
  3. Met de Custom text facet function kun je GREL-formules schrijven om een ​​facet te maken
  4. Typ in het vak Expressions: value.contains(",").toString()
  5. Klik OK. Aangezien de functie ‘contains’ een Booleaanse waarde oplevert, zou je een facet moeten zien met ‘false’ en ‘true’. True = waarden die een komma bevatten; false = waarden zonder komma

Ga verder naar het volgende hoofdstuk om de namen ook in de natuurlijke volgorde te kunnen veranderen.

Klik hier voor het volgende hoofdstuk>

Bron: licentie CC-BY 4.0 2016–2020 by Library Carpentry

Was deze tip interessant?

Geef hier jouw feedback of deze tip interessant is geweest voor jou.

Vertel ons waarom je deze tip niet interessant vond.

Misschien vind je dit ook interessant

Voor vrijwilligers in Zuid-Holland

Het platform ZelfDoen in Zuid-Holland is er voor vrijwilligers in groen en erfgoed. Vrijwilligersgroepen en organisaties kunnen op het platform vacatures, cursussen en andere activiteiten aanbieden.

Om deze pagina op te slaan moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je eerst een datum kiezen

Wil je nu een datum kiezen?

Nee