Tekst analytics is niks voor beginners!

  4 minuten

Organisaties hebben vaak een berg aan data. Voorbeelden van deze data zijn de gestructureerde data zoals de financiële administratie, maar ook ongestructureerde data zoals e-mails, reviews, chatbot-gesprekken en social media content. Dat gestructureerde data inzicht kan geven in de prestaties van bedrijfsprocessen is geen verrassing meer. Hoe zit het echter met ongestructureerde data zoals tekstmateriaal? Hoe schep je orde in deze chaos? Dat is een uitdaging die ik zonder de juiste expertise vaak onopgemerkt fout heb zien gaan.

Het gebruik van tekst analytics zie je steeds meer terugkomen in verschillende toepassingen. Zo ook in de verkiezingscampagne van voormalig president van Amerika, Barack Obama.
Met deze techniek waren zij in staat om actuele en relevante onderwerpen op social media op te sporen en de opinies hiervan te pijlen. Op deze manier wist het team in elke situatie wat er speelde, wat de aanhang ervan vond en konden zij hun strategie hierop aanpassen.

Niet alleen het team van de ‘Obama campagne’ heeft de waarde van tekst analytics ontdekt. Met name overheidsinstanties focussen zich nu op het gebruik van data science om bijvoorbeeld de mening van bevolking over bepaalde vraagstukken te toetsen.

 

Maar eerst: wat is tekst analytics eigenlijk?

Tekst analytics beschrijft het proces waarbij er met behulp van verschillende technieken informatie gehaald wordt uit een groot aantal ongestructureerde tekstmaterialen. Concreet gezegd betekent dit dat de teksten met behulp van tekstanalyse methode naar getallen vertaald worden. Het analyseren, evalueren en interpreteren van deze datasets levert inzichten in het tekstmateriaal op. Tekst analytics kan antwoorden geven op de vragen met welk sentiment de teksten zijn geschreven, welke onderwerpen ze bevatten en helpen in het voorspellen van bepaalde events.

 

En nu: wat gaat er mis?

In de afgelopen jaren heb ik gemerkt dat bedrijven vaak moeite hebben met het implementeren van tekst analytics. Waarin de analyses niet het probleem vormden, maar het ‘schoonmaken’ van de data voorafgaand aan de analyses en het interpreteren van de resultaten.

 

Tekstdata schoonmaken is cruciaal

Vandaag de dag lijkt het alsof computers de wereld al hebben overgenomen, maar één ding mag niet vergeten worden: mensen zijn (nu nog) slimmer dan computers. Vooral in het ongestructureerde karakter van tekstdata. Teksten zijn een samenstelling van leestekens, letters en cijfers die door mensen in verband met elkaar gezet worden en zo een betekenis krijgen.

Niet alle delen van een tekst zijn even belangrijk voor een analyse. Om grote aantal stukken tekst in groepen op basis van inhoud in te delen (topic modeling), is het belangrijk om alle dingen die geen inhoudelijke betekenis hebben te verwijderen. Hieronder vallen leestekens en woorden die niet belangrijk zijn.

Het onderwerp van een stuk tekst wordt namelijk gebaseerd op welke combinatie van woorden vaak terugkeren in de teksten. In de Nederlandse taal zijn de vijf meest gebruikte woorden “de”, “en”, “in”, “van” en “op”. Deze woorden geven een tekst echter geen betekenis en worden tijdens de voorbereiding voor tekst analytics routinematige verwijdert, anders zou elk onderwerp min of meer alleen uit dit soort woorden bestaan.

Het verwijderen van nutteloze woorden zie ik vaak gebeuren met stopwoordenlijsten . In theorie is dat een prima methode maar in praktijk meer iets voor beginners. De woorden in de lijst worden uit de teksten gehaald. Voorbeelden van woorden die in zo’n lijst kunnen staan zijn: daarom, inmiddels en welke. Er staan echter ook woorden in als ’niet’ of ’weinig’ tussen. Als je hierop volgend het sentiment van de tekst wilt weergeven en deze opgeschoonde tekst gebruikt, leidt dat tot fouten. Hieronder vind je een voorbeeld:

Klantenreview:

“Het contact met jullie helpdesk was niet goed! Ik heb weinig nuttige informatie gekregen.”

Klantenreview na het verwijderen van stopwoorden:

“Contact helpdesk goed nuttige informatie gekregen.”

Het routinematig verwijderen van stopwoorden voor het uitvoeren van sommige tekstanalyse methoden kan voor de andere methode leiden tot verkeerde resultaten. In het bovenstaande voorbeeld verandert het sentiment na het schoonmaken van de tekst (van negatief naar positief). Bij veel organisaties is het schoonmaken van teksten gestandaardiseerd wat leidt tot veel onopgemerkte fouten. Daarnaast is de definitie van een stopwoord ook erg belangrijk. Het woord ’helpdesk’ is bijvoorbeeld niet cruciaal bij het analyseren van helpdeskreviews, er is namelijk een grote kans dat de meeste reviews helpdesk als onderwerp hebben. Ik ben vaak tot betere analyses gekomen met een algoritme (tf-idf) die berekent of een woord in de context van de dataset een stopwoord is of niet.

 

Lak aan menselijke uitdrukkingen

Het tweede probleem dat vaak voorkomt bij tekst analytics is om niet alleen met mooie opschoonmethodes aan te pakken, maar ook met een collega die zijn dataset goed kent. Je mag niet vergeten, dat teksten door mensen zijn geschreven en ook vaak menselijke taalelementen zoals ironie, accenten of metaforen bevatten. Ironie kan bijvoorbeeld een probleem bij sentimentanalyses zijn. Accenten kunnen de woordkeuze en deels ook grammatica beïnvloeden en metaforen of spreekwoorden kunnen interessante woord combinaties laten zien:

Klantenreview:

“Jullie hebben lak aan alles!”

Klantenreview na het verwijderen van stopwoorden:

“lak”

Dit soort stukken komen in sommige datasets vaker voor dan in andere, maar zijn zeker niet te onderschatten. Het is altijd belangrijk om tekst datasets en de mensen die deze teksten hebben geschreven, goed in beeld te hebben.

Klantenreviews zijn vaak een minder groot slachtoffer van menselijke uitdrukkingen dan sociale media content. Iemand die aan de slag gaat met tekst analytics moet op de hoogte zijn van de manier waarop mensen zich uitdrukken en de resultaten met bepaalde verwachtingen interpreteren. In het algemeen is tekst analytics zinvoller en zijn de resultaten preciezer als er meer materiaal wordt ingezet. In een klantenbestand met 10.000 reviews (stukken tekst) valt een ironische review minder lastig dan bij een analyse van 10 reviews.

 

Wat betekent dat uiteindelijk?

De grote hoeveelheid van verschillende teksten en de vele verschillende nuancen met die mensen teksten schrijven, moeten in het achterhoofd gehouden worden tijdens het schoonmaken en het interpreteren van tekstdata. Ervaring met tekst mining kan alleen opgedaan worden met oefening en de juiste ondersteuning.

Resultaten van tekst analytics worden nog te vaak hetzelfde gezien als uitkomsten van rekensommen. Zo verschillend als alle menselijke uitdrukkingen zijn, zo complex zijn teksten. Je doet niet zomaar een analyse en bent dan meteen klaar. Na een sentimentanalyse is een logische vervolgstap bijvoorbeeld om nog een keer een sentimentanalyse van hetzelfde materiaal te doen. Schoon de methodes en sentimentanalyses op zodat ze aangepast kunnen worden en de resultaten met elkaar vergeleken kunnen worden. Want tekstanalyses zijn niet zo zwart-wit als rekensommen.

New call-to-action
Deel dit artikel