Crawling | synoradzki.de

Crawling bezeichnet das automatische Durchsuchen von Webseiten durch Suchmaschinen-Bots wie den Googlebot. Der Bot folgt Links von Seite zu Seite, lädt den HTML-Code herunter, parst Inhalte und Links und indexiert alles in der Suchmaschinen-Datenbank. Ohne Crawling gibt es keine Indexierung und ohne Indexierung keine Rankings – Crawling ist also der erste Schritt im SEO-Prozess. Das Crawling ist vollautomatisch und kann nicht direkt gesteuert werden, aber man kann es durch Struktur und technische Signale beeinflussen.

Technisch funktioniert Crawling so: Der Bot startet bei der robots.txt und der XML-Sitemap (um zu wissen, wo Inhalte sind), folgt dann internen Links. Der Bot speichert den HTTP-Status-Code (200 = OK, 404 = nicht gefunden, 410 = gelöscht, 503 = Server down) und rendert auch JavaScript, um dynamisch erzeugte Inhalte zu sehen. Der Googlebot benutzt echte Browser-Rendering-Engine (Chromium) und kann JavaScript ausführen. Aber: Crawling kostet Ressourcen, daher kann Google nicht alles crawlen – daher das Crawl Budget.

In der Praxis sollte eine Website crawl-freundlich sein: 1) Schnelle Server-Response (unter 200ms ideal), 2) Saubere interne Verlinkung (keine Broken Links), 3) robots.txt und Sitemap konfigurieren, 4) Keine JavaScript-Render-Probleme (moderne Tools testen dies), 5) Strukturierte URLs ohne endlose Parameter, 6) Mobile Version indexierbar (Mobile-First Indexing). Man kann Crawling Status in Google Search Console prüfen und mit Fetch as Google testen, wie Googlebot eine Seite sieht. Tools wie Screaming Frog zeigen, wie der Bot die Website crawlt – hilfreich zur Fehlersuche.