Deze website maakt gebruik van cookies

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien. Wij plaatsen zelf ook anonieme cookies om onze site te verbeteren. Deze gegevens worden niet aan derden verstrekt.

Deze website toont video’s van YouTube. Deze partij plaatst cookies (third party cookies). Als je deze cookies niet wilt, dan kan je dat hier aangeven. Je kan dan geen video’s op deze website zien.

Online cursus OpenRefine

8. Transformaties: introductie

Via facetten, filters en clusters biedt OpenRefine relatief eenvoudige manieren om een ​​overzicht van de gegevens te krijgen en wijzigingen aan te brengen waar je termen wilt standaardiseren die worden gebruikt voor een gemeenschappelijke set gegevens (waarden).

Soms zijn er echter wijzigingen die je wilt aanbrengen in de gegevens die niet via facetten, filters en clusters kunnen worden uitgevoerd. Denk aan:

  • Gegevens in een enkele kolom opsplitsen in meerdere kolommen (bijv. Een adres opsplitsen in meerdere delen)
  • Het formaat van gegevens in een kolom standaardiseren zonder de waarden te wijzigen (bijv. interpunctie verwijderen of een datumnotatie standaardiseren)
  • Het uitfilteren (destilleren of extraheren) van een bepaald type gegevens uit een langere tekstreeks (bijv. het vinden van een postcode in een beschrijvingsveld)
  • Om dit type activiteit te ondersteunen, ondersteunt OpenRefine ‘Transformaties’, manieren om gegevens in kolommen te manipuleren.
  • Transformaties worden normaal gesproken geschreven in een speciale taal genaamd ‘GREL’ (General Refine Expression Language). Tot op zekere hoogte zijn GREL-expressies of formules vergelijkbaar met Excel formules, hoewel ze zich eerder richten op tekstmanipulaties dan op numerieke functies.

Volledige documentatie voor de GREL formules is beschikbaar op https://github.com/OpenRefine/OpenRefine/wiki/General-Refine-Expression-Language. Deze online cursus behandelt slechts een paar formules.


Veel voorkomende transformaties

Sommige transformaties worden regelmatig gebruikt en zijn rechtstreeks toegankelijk via menuopties, zonder ze rechtstreeks te hoeven typen.

Voorbeelden van enkele van deze veel voorkomende transformaties zie je hieronder, met hun bijbehorende ‘GREL’ -formules.

We zullen later in deze cursus laten zien hoe we de GREL-versie kunnen gebruiken.


Veel voorkomende formules

1. Gegevens in hoofdletters: De GREL formule is: value.toUppercase() 
2. Gegevens in kleine letters: de GREL formule is: value.toLowercase()

3. Gegevens in Titlecase (d.w.z. elk woord begint met een hoofdletter en alle andere tekens worden omgezet in kleine letters).  De GREL formule is: value.toTitlecase ()
4. Verwijderen van alle 'witruimte'-tekens (bijv. Spaties, tabbladen) aan het begin of einde van de huidige waarde. GREL formule: value.Trim ()

 

Oefening 9: Correcte gegevens

  1. Maak een text facet in de kolom Publisher (uitgever)
  2. Merk op dat er in de waarden er twee zijn die er identiek uitzien - waarom komt deze waarde twee keer voor?
  3. Gebruik in de Publisher kolom het vervolgkeuzemenu om Edit cells->Common transforms->Trim leading and trailing whitespace te selecteren
  4. Kijk nu naar het publisher facet - is het veranderd? (als het niet is veranderd, klik dan op de optie refresh of vernieuwen om ervoor te zorgen dat het wordt bijgewerkt)

 

Hoe schrijf ik een geldige GREL-expressie of formule?

Om te beginnen met het schrijven van transformaties, selecteer je de kolom waarop je een transformatie wilt uitvoeren en kies je Edit cells->Transform….

In het scherm dat wordt weergegeven, heb je de ruimte om een ​​transformatie te schrijven (in het vak 'Expression') en vervolgens de mogelijkheid om een ​​voorbeeld te bekijken van het effect dat de transformatie zou hebben op 10 rijen van je gegevens.

De transformatie die je typt in het vak 'Expression' moet een geldige GREL-formule zijn. De eenvoudigste uitdrukking is simpelweg het woord ‘value’ op zichzelf - wat simpelweg de waarde betekent die momenteel in de kolom staat.

GREL-formules worden geschreven door een bepaalde waarde (een tekstreeks, een datum, een nummer enz.) aan een GREL-functie te geven. Sommige GREL-functies hebben aanvullende opties die bepalen hoe de functie werkt.

GREL ondersteunt twee soorten syntaxis:

1. value.function (options)
2. function (value, options)

Een van beiden syntaxis kun je gebruiken, naar eigen voorkeur. In deze online cursus gebruiken we voor het gemak de eerste: value.function (options).

Naast de optie 'Preview' zijn er nog meer:

History’: een weergave van een lijst met transformaties die je eerder hebt gebruikt, met de optie om ze onmiddellijk opnieuw te gebruiken of om ze te markeren met een ster zodat je ze snel terug kunt vinden (Starred)
‘Help’ - een lijst met alle GREL-functies en beknopte informatie over het gebruik ervan

Oefening 10: Gebruik facetten en de GREL-formule value.toTitlecase () om de titels te plaatsen

  1. Maak een facet voor publisher
  2. Selecteer "Akshantala Enterprises" en "Society of Pharmaceutical Technocrats"
  3. Gebruik de include link rechts van het facet om meerdere waarden of gegevens in het facet te selecteren
  4. Zie dat de titels allemaal in hoofdletters staan
  5. Klik op het dropdown-menu in de kolom Title
  6. Kies Edit cells->Transform
  7. Typ in het vak Expression: value.toTitlecase ()
  8. In het voorbeeldvenster onder value.toTitlecase () kun je zien wat het effect is als je deze actie gaat uitvoeren.
  9. Klik op OK

Klik hier voor het volgende hoofdstuk>

Bron: licentie CC-BY 4.0 2016–2020 by Library Carpentry

Was deze tip interessant?

Geef hier jouw feedback of deze tip interessant is geweest voor jou.

Vertel ons waarom je deze tip niet interessant vond.

Misschien vind je dit ook interessant

Voor vrijwilligers in Zuid-Holland

Het platform ZelfDoen in Zuid-Holland is er voor vrijwilligers in groen en erfgoed. Vrijwilligersgroepen en organisaties kunnen op het platform vacatures, cursussen en andere activiteiten aanbieden.

Om deze pagina op te slaan moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je ingelogd zijn.

Wil je nu inloggen?

Nee

Om gereedschap te kunnen lenen moet je eerst een datum kiezen

Wil je nu een datum kiezen?

Nee