Hoe blokkeer je Analytics spam met tools?

Geen reacties
Tags: ,
Posted 29 jan 2016 in nieuws

Wie af en toe in Google Analytics kijkt, heeft het wel gezien – er zijn honderden bedrijven bezig met het vervuilen van Google Analytics statistieken. Analytics spam. Wat is het? Is het schadelijk? Wat kun je hier aan doen en hoe?

Zie jij de onderstaande domeinen in je verwijzingenverkeer? Dan hebben zij jou ook te pakken gehad.

  • traffic2cash.xyz
  • с.новым.годом.рф
  • share-buttons.xyz
  • snip.tw
  • copyrightclaims.org
Wat is Analytics Spam?

Analytics spam zijn domeinen die in Analytics terecht zijn gekomen als verwijzingen die zogenaamd een bezoeker naar jouw website hebben gestuurd.

Als je 100 bezoekers per dag hebt, kan het lijken alsof deze website daadwerkelijk veel verkeer oplevert. Soms gaat het om 5-10 procent van al het verkeer. Maar dat verkeer is niet echt, het is Analytics spam!

1

In bijna alle gevallen is er helemaal geen bezoeker naar jouw website geweest. Het gaat om spamsoftware die een bezoeker simuleert (crawler spam) of jouw Analytics code gebruikt om Google Analytics te laten weten dat er een bezoeker op jouw site is geweest, terwijl dat niet het geval is (ghost spam). Deze laatste methode zorgt voor het meeste ‘verkeer’. De werking van Analytics spam wordt uitgelegd bij Analytics Toolkit.

Gelukkig is deze spam niet schadelijk. Het is voornamelijk vervelend omdat je statistieken vervuild raken. Gelukkig is er iets aan te doen.

Hoe groot is het probleem?

We hebben 292 Google Analytics accounts geanalyseerd zonder spamfilters met tenminste 25 bezoekers door verwijzingen per dag. Het totale aantal ‘verwijzingenspamverkeer’ was ongeveer 11 procent en ongeveer 57 procent van alle websites had spamverkeer vanuit tenminste één van de 500 spamdomeinen.

2

Nieuw verkeer schoonhouden met anti-spam tools

De meeste oplossingen die je helpen om je Analytics statistieken vrij van spam te houden vereisen een soort van (handmatig) filteren van spamdomeinen en meer algemene filters binnen Analytics.

Tegenwoordig zijn er ongeveer 550 domeinen die het spamprobleem veroorzaken (de meest recente lijst van spam domeinen kan worden gevonden op GitHub – deze is open source).

Vanwege het grote aantal spamdomeinen is het handmatig toepassen van filters zeer tijdrovend, en omdat er elke maand nieuwe spamdomeinen bijkomen, is het moeilijk om het bij te houden.

Om de groei van spam bij te houden, zijn er geautomatiseerde oplossingen gemaakt. Er zijn verschillende tools op de markt, waarvan de meeste gratis zijn.

Hieronder zal ik verschillende tools beschrijven.

Tools

Analytics Verwijzingen/Ghost Spam Blocker

3

Analytics Ghost Spam Blocker (gratis) van AdWords Robot. (disclaimer: dat is mijn bedrijf) Deze spam blocker is zeer up-to-date. Op het moment van schrijven bevat het meer dan 570 domeinen in hun zwarte lijst.

Informatie:

Voordelen:

  • Eenvoudige interface met zoekoptie (handig als je veel profielweergaves hebt).
  • Kan meerdere accounts, properties en views tegelijk bijwerken.
  • Toegevoegde filters ongedaan maken indien nodig.
  • Zeer up-to-date met behulp van de gemeenschap (meer dan 570 domeinen op de zwarte lijst, 39 filters).
  • Verhoogde quota limieten tot 10.000 aanvragen per dag.

Nadelen:

  • Je moet de filters steeds bijwerken wanneer nieuwe domeinen worden gepubliceerd.
Analytics Toolkit

4

Analytics Toolkit (15 dollar per maand) van Analytics Toolkit. Deze spamtool is onderdeel van een breder pakket van Analytics tools.

Informatie:

Voordelen:

  • Filters worden automatisch bijgewerkt wanneer nieuwe domeinen worden gepubliceerd.
  • Filters toepassen op alle accounts, properties en views.
  • One click interface, set and forget.
  • Quota limieten zijn geen probleem omdat filters op de achtergrond worden toegepast.

Nadelen:

  • Registratie is noodzakelijk.
  • Het aantal gefilterde domeinen is niet gepubliceerd (vijf filters zijn toegevoegd).
Spam Filter Installer

5

Spam Filter Installer (gratis & open source) van Simoa Hava is een van de eerste geautomatiseerde spamfilter tools. De gehele tool is open source en kan door iedereen worden gedownload en geïmplementeerd. Op deze manier heb je betere controle over quota limieten.

Informatie:

Voordelen:

  • Open source code, je kunt zelf de tool implementeren.
  • Meerder weergaven kunnen worden geselecteerd.

Nadelen:

  • Kan alleen op één account tegelijk worden toegepast.
  • Quota limiet van 2000 verzoeken per dag.
  • Het aantal gefilterde domeinen is semi up-to-date (meer dan 400 domeinen, 26 filters).

Soorten filters

De meeste tools hierboven voegen één of meerdere van de volgende filters toe.

#1 Lege hostname uitsluiten

De meeste ghost spambots sturen het hostname veld niet door bij het sturen van nepdata naar Analytics.

Deze filter verwijdert alle verzoeken met een lege hostname.

6

#2 Lege schermresolutie uitsluiten

De meeste ghost spambots sturen de schermresolutie niet door bij het sturen van nepdata naar Analytics.

Deze filter verwijdert alle verzoeken met een lege schermresolutie.

7

#3 Alleen eigen hostnames opnemen

De meeste ghost spambots stellen de hostname niet in, maar sommige doen dit wel. In de meeste gevallen stellen zij de hostname in naar een spamdomein in plaats van het echte domein van de website.

8

Deze filter filtert alle verzoeken uit met een hostname die ingesteld is op iets anders dan de lijst met hostnames die wij ter beschikking hebben – onze domeinnaam.

Waarschuwing! Omdat dit een witte lijst filter is, filtert het alles uit behalve de lijst met namen die wij ter beschikking hebben. Dit heeft een keerzijde: als je je domein in de toekomst verandert of als je meerdere domeinen met hetzelfde Analytics account gebruikt (zoals voor elke taal TLD of met meerdere sub domeinen), dan zou het kunnen dat je ook het goede verkeer uitfiltert. Wees dus heel voorzichtig met dit filter anders zou je wellicht veel verkeer kunnen verliezen uit je Analytics.

Hoewel dit geweldig klinkt is deze filter zeker niet de beste oplossing; sommige spambots bezoeken je website ook, dus de hostname wordt ingesteld op de juiste hostname en zal niet worden uitgefilterd.

9

#4 Domeinen op de zwarte lijst uitsluiten (campaign source filter)

Indien de bovenstaande filters niet werken, moet je elk bekende spamdomein handmatig uitsluiten. Momenteel zijn er meer dan 550 bekende spamdomeinen in de open source spam lijst.

De meeste tools gebruiken een lijst met domeinen die automatisch worden toegevoegd.

Spam verwijderen van reeds vervuild verkeer

Met behulp van de hierboven beschreven methoden is het niet mogelijk om reeds vervuilde data op te schonen (in Google Analytics). Google Analytics ondersteunt segmenten die het mogelijk maken om oude gegevens te filteren, maar niet bij te werken.

Door onderstaand segment te gebruiken, kun je alle spamdomeinen verbergen uit oudere gegevens. Erg handig als je veel spam had in het verleden wat niet was gefilterd.

Installeer Analytics Spam Blocker (januari 2016, 550 domeinen) en je kunt het segment in elke view selecteren. Lees de hoe-segmenten-te-gebruiken gids van KissMetrics als je niet bekend bent met segmenten.

Andere (niet aanbevolen) oplossingen

Er bestaan een aantal andere oplossingen die gedeeltelijk zouden kunnen werken. De meesten zou ik niet aanraden omdat ze meer kapot maken dan dat ze repareren. De meesten werken niet beter dan de geautomatiseerde oplossingen van hierboven.

Aangepaste dimensies toevoegen aan elk bezoek (niet beter dan filters hierboven)

Een aangepaste dimensie aan elk bezoek toevoegen stelt je in staat een onderscheid te maken tussen ghost spam en echte bezoeken. Deze oplossing vereist toegang tot de Analytics code op de website.

Domeinen uitsluiten die .htaccess gebruiken (niet aanbevolen)

Verkeer uitsluiten op web server niveau pakt ghost spam niet aan. Je hebt ook een Apache web server nodig (of andere web server die compatibel is) met toegang tot de instellingen. Het updaten van deze regels kan de hele website omlaag halen, dus wees voorzichtig. Ook het controleren van meer dan 500 reguliere expressies bij elk bezoek gebruikt extra resources.

Extra parameters toevoegen aan de page view trigger (niet aanbevolen)

Om een extra parameter toe te voegen aan de page view request, heb je toegang tot je Analytics code op je website nodig. Daarmee spelen is niet aan te raden.

Een nieuwe tracker ID aanmaken (niet aanbevolen)

Een nieuwe Google Analytics tracker ID aanmaken is geen goed idee omdat je al je oude gegevens kwijtraakt. Bovendien zullen spambots je nieuwe account vinden en nieuwe spam aanmaken.

IP adressen uitfilteren (niet aanbevolen)

IP’s uitfilteren zal niet veel helpen omdat bots verschillende IP’s gebruiken. IP’s van ghost spambots kunnen zelfs onbekend zijn, omdat ze je website nooit bezoeken.

Ter afsluiting

Analytics spamverkeer is nog steeds een probleem, maar er bestaan geautomatiseerde oplossingen die kunnen helpen. Deze werken goed en zijn gemakkelijk te gebruiken. Er is ook volop keuze.

Wat nog mist is een tool die alle varianten van filters combineert en geautomatiseerd toegepast kan worden. Dat is vooral bij een eigen hostname white list (filter #3) lastig, omdat het vaak niet bekend is wat de echte domeinnamen zijn, zeker als er meerdere zijn.

Google heeft een spam verkeer support pagina aangemaakt, dat betekent dat ze het probleem erkennen en wellicht met een oplossing komen. Adam Singer van Google Analytics heeft bevestigd dat Google probeert met een fix te komen, maar de release datum is nog niet bekend.

Nieuwe spam domeinen gevonden? Geef ze door aan de community blacklist op GitHub. Andere tips & tricks zijn van harte welkom in de reacties.



Lees het volledige bericht op Emerce »


Add Your Comment