5/5 - (1 vote)

Google hat Informationen zu seinen Ranking-Systemen offengelegt. Mit diesen Informationen, eigenen Gedanken und Recherchen z.B. in Google Patenten will ich in diesem Beitrag die Puzzlestücke zu einem Gesamtbild zusammenfügen.

Dabei gehe ich nicht im Detail auf Rankingfaktoren und deren Gewichtung ein, sondern im Fokus auf die Funktionalität.

Disclaimer: Einige Annahmen in diesem Beitrag beruhen auf meinen eigenen Gedanken und Annahmen, die ich alle aus verschiedenen Quellen entwickelt habe.

Warum sollten sich SEOs mit der Funktionsweise von Suchmaschinen / Google beschäftigen?

Sich nur mit Rankingfaktoren und möglichen Optimierungsmaßnahmen zu beschäftige ohne die Funktionsweise einer moderne Suchmaschine wie Google zu verstehen, halte ich für nicht sinnvoll. Es gibt viele Mythen und Spekulationen in der SEO-Branche, denen man blind folgt wenn man nicht eigene Ranking-Erfahrungen macht. Um Mythen vorab einzuschätzen hilft es sich mit der grundsätzlichen Funktionsweise von Google zu beschäftigen. Diese Beitrag soll Dir dabei helfen.

Prozessschritte für Information Retrieval, Ranking und Knowledge Discovery bei Google

Laut den Erläuterungen im hervorragenden Vortrag “How Google works: A Google Ranking Engineer’s Story” von Paul Haahr unterscheidet Google nach folgenden Prozessschritten:

  • Before a query:
    • Crawling
    • Analyzing crawled pages
      • Extract links
      • Render contents
      • Annotate semantics
    • Build an index
  • Query Processing
    • Query understanding
    • Retrieval and scoring
    • post retrieval adjustments

Indexierung und Crawling

Vorweg Indexierung und Crawling ist die Grundvoraussetzung für das Ranking, hat aber sonst nichts mit dem Ranking von Inhalten zu tun.

Google crawlt sekündlich das Internet über Bots. Diese Bots werden auch Crawler genannt. Die Google Bots folgen Links, um neue Dokumente/Inhalte zu finden. Aber auch nicht im html code ausgewiesene URLs und Direkteingaben von URLs im Chrome-Browser können Google für das Crawling genutzt werden.

Findet der Google Bot neue Links werden diese in einem Scheduler gesammelt, um sie später abzuarbeiten.

Domains werden unterschiedlich häufig und vollständig gecrawlt bzw. Domains werden unterschiedliche Crawling Budgets zugeteilt. Früher war der PageRank ein Hinweis auf die Crawling-Intensität, die einer Domain zugeteilt wird. Weitere Faktoren können neben der externen Verlinkung auch Publishing-Frequenz sowie Aktualisierungs-Frequenz sowie der Website Typ sein. News-Seiten, die bei Google News stattfinden, werden i.d.R. häufiger gecrawlt. Laut Google gibt es keine Probleme mit dem Crawling Budgets bis ca. 10.000 URLs. Sprich die meisten Websites haben kein Problem vollständig gecrawlt zu werden.

Die Indexierung findet in zwei Stufen statt.

Im ersten Schritt wird der reine html code zuerst mit einem Parser so aufbereitet, dass er ressourcensparend in einen Index übernommen werden kann.

Sprich, die erste indexierte Version eines Inhalts ist die gerenderte Form. Dadurch spart Google Zeit beim Crawling und damit auch bei der Indexierung.

In einem zweiten späteren Schritt wird die indexierte html-Version gerendert, also so dargestellt. wie der Nutzer ihn in einem Browser sieht.

Wenn Google generelle Probleme mit den Indexierung- und Crawlingsystemen hat kann man diese in dem offiziellen Google Search Status Dashboard sehen.

Welche Google Indexe gibt es?

Bei Google kann grundsätzlich zwischen zwei Index-Arten unterschieden werden.

  1. Der klassische Suche-Index enthält alle Inhalte, die Google indexieren kann. Je nach Inhalts-Art unterscheidet Google noch in die sogenannten vertikalen Indexe wie z.B. klassischer Dokumenten-Index (Text), Bilder Index, Video-Index, Flüge, Bücher, News, Shopping, Finanzen. Der klassische Suche-Index besteht aus tausenden von shards, die Millionen von Websites beinhalten. Aufgrund der Größe des Index ist es aufgrund der parallelen Abfragen der Websites in den einzelnen shards möglich sehr schnell die Top n Dokumente / Inhalte je shard zusammenzustellen.
  2. Der Knowledge Graph ist Googles semantischer Entitäten-Index. Im Knowledge Graph werden alle Informationen rund um Entitäten und deren Beziehungen untereinander erfasst. Informationen zu den Entitäten bezieht Google aus verschiedenen Quellen.

Google ist über Natural Language Processing immer besser in der Lage unstrukturierte Informationen aus Suchanfragen und Online-Inhalten zu extrahieren, um darüber Entitäten zu identifizieren oder Daten Entitäten zuzuordnen. Mit MUM kann Google nicht nur Textquellen dafür nutzen, sondern auch Bilder, Videos und Audios.

Für das Data Mining kann Google sowohl einen Query Processor als auch eine Art Entitäten-Prozessor bzw. Semantische API zwischen dem klassischen Suche-Index nutzen. (siehe dazu auch das Google Patent “Search Result Ranking and Representation”)

Mehr zum Knowledge Graph.

 

Search Query Processing

Die Magie bei der Interpretation von Suchtermen geschieht beim Search Query Processing. Hier sind folgende Schritte wichtig:

  1. Identifikation der thematischen Ontologie, in der sich die Suchanfrage bewegt. Ist der thematische Kontext klar kann Google einen Inhalts-Korpus aus Text-Dokumenten, Videos, Bildern … als potentiell passende Suchergebnisse auswählen. Das ist insbesondere bei mehrdeutigen Suchtermen schwierig. Mehr dazu in meinem Beitrag Knowledge Panel & SERPs for ambigous search queries.
  2. Identifikation von Entitäten und deren Bedeutung im Suchterm (Named entity recognition)
  3. Semantische Annotation der Suchanfrage
  4. Verfeinerung des Suchterms
  5. Verstehen der semantischen Bedeutung einer Suchanfrage.
  6. Identifikation der Suchintention

Ich habe hier bewusst zwischen 2. und 3- unterschieden, da die Suchabsicht erstens je nach Nutzer variieren und sich sogar mit der Zeit verändern kann, die lexikalische semantische Bedeutung bleibt hingegen gleich.

Für bestimmte Suchanfragen wie z.B. offensichtliche Fehlschreibweisen oder Synonyme findet automatisch im Hintergrund ein Query Refinement statt. Man kann als Nutzer die Verfeinerung der Suchanfrage aber auch manuell anstoßen, insofern Google nicht sicher ist, ob es sich um einen Tippfehler handelt. Beim Query Refinement wird eine Suchanfrage im Hintergrund umgeschrieben, um die Bedeutung besser interpretieren zu können.

Neben dem Query Refinement findet beim Query Processing auch ein Query Parsing statt, das der Suchmaschine ermöglicht, die Suchanfrage besser zu verstehen. Dabei werden Suchanfragen so umgeschrieben, dass auch Suchergebnisse geliefert werden können, die nicht direkt zur Suchanfrage selbst passen, sondern auch zu verwandten Suchanfragen. Mehr dazu hier.

Eine ausführliche Darstellung des Search Query Processing findest Du in dem Beitrag Wie versteht Google Suchanfragen durch Search Query Processing?

Welche Google-Ranking-Systeme gibt es?

Google unterscheidet hier zwischen folgenden Ranking-Systemen:

  • AI Ranking Systeme
    • Rankbrain
    • BERT
    • MUM
  • Crisis information systems
  • Deduplication systems
  • Exact match domain system
  • Freshness system
  • Helpful content system
  • Link analysis systems and PageRank
  • Local news systems
  • Neural matching
  • Original content systems
  • Removal-based demotion systems
  • Page experience system
  • Passage Ranking system
  • Product review system
  • Reliable information system
  • Site diversity system
  • Spam detection system
  • Retired Systems
    • Hummingbird (wurde weiterentwickelt)
    • Mobile friendly ranking system (jetzt Teil des Page experience systems)
    • Page speed system (jetzt Teil des Page experience systems)
    • Panda system (seit 2015 Teil des Core Systems)
    • Penguin System (seit 2016 Teil des Core Systems)
    • Secure sites system (jetzt Teil des Pages experience systems)

Diese Ranking-Systeme kommen in verschiedenen Prozessschritten der Google-Suche zum Einsatz.

Wie funktionieren die unterschiedlichen Ranking-Systeme zusammen?

Abschließend versuche ich die vielen Informationen seitens Google zur Funktionalität ihrer Suchmaschinen in ein Gesamtbild zu bringen.

Für die Interpretation der Suchanfragen, Identifikation der Suchintention, das Query Refinement, das Query Parsing und das Search Term Document Matching ist ein Query Processor zuständig. Das Search Query Processing kann nach dem klassischen Keyword basierten Term x Document Matching durchgeführt werden oder nach dem einem Entitäten basierten Ansatz, je nachdem ob Entitäten in der Suchanfrage vorkommen und bereits erfasst sind oder nicht.

Der Entity-Processor oder Semantic API bildet die Schnittstelle zwischen dem Knowledge Graph und dem klassischen Suche Index. Hierüber kann Named Entity Recognition und Data Mining für den Knowledge Graph bzw. Knowledge Vault z.B. via Natural Language Processing stattfinden. Mehr dazu im Beitrag “Natural Language Processing to build a semantic database”.

Für das Google Ranking ist die Scoring Engine, ein Entity- und Sitewide Qualifier und eine Ranking Engine verantwortlich. Bei den Rankingfaktoren unterscheidet Google zwischen Suchanfrage-abhängigen (z.B. Keywords, Proximity, Synonyme …) und Suchanfrage-unabhängigen (z.B. PageRank, Sprache, Page Experience…) Rankingfaktoren. Ich würde noch zwischen Dokumentenbezogenen Rankingfaktoren und Domain bzw. Entitäts-bezogenen Rankingfaktoren unterscheiden.

In der Scoring Engine findet eine Relevanz-Bewertung auf Dokumentenebene in Bezug auf die Suchanfrage statt. Beim Entity- und Sitewide Qualifier geht es um die Bewertung des Publishers und/oder Autors sowie die Qualität des Contents im Gesamten in Bezug auf Themen und UX der Website-(Bereiche).

Die Ranking Engine bringt die Bewertung aus der Scoring Engine und dem Entity- und Sitewide Qualifier zusammen und bringt die Suchergebnisse in eine Reihenfolge.

Eine Cleaning Engine sortiert doppelte Inhalte aus und bereinigt die Suchergebnisse von Inhalten, die eine Abstrafung bekommen haben.
Ein Personalisierungs-Layer berücksichtigt zum Schluss Faktoren wie die Suchhistorie oder bei regionaler Suchintention den Standort oder andere lokale Rankingfaktoren.

Durch auf das Bild klicken vergrößern

 

Klingt das logisch? Wenn ja freue mich darüber, wenn Du das Wissen teilst.

Weitere Beiträge zur Funktionsweise von Google

Noch nicht genug? Ich beschäftige mich seit 2014 intensiv mit Büchern, Google Quellen und Google Patenten über moderne Suchmaschinen-Technologien. Hier eine Auswahl an Beiträgen, die ich dazu verfasst habe:

 

 

Zu Olaf Kopp

Olaf Kopp ist international anerkannter Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung im Online-Marketing, Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO bei der Aufgesang GmbH. Er ist Autor, Podcaster und anerkannter Branchenexperte für semantische SEO, E-A-T, Content-Marketing-Strategien entlang der Customer Journey und digitaler Markenbildung. Olaf Kopp ist Mitgründer und Moderator des Content-Marketing-Podcasts Content-Kompass. Kopp ist Autor des Buches “Content-Marketing entlang der Customer Journey” und Mitorganisator des SEAcamp. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. Search Engine Land, t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Sein Blog zählt laut diversen Fachmedien und Branchenstimmen zu den besten Online-Marketing-Blogs in Deutschland. Zudem engagiert sich Olaf Kopp als Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, SMX, CMCx, OMT, OMX, Campixx… Olaf Kopp ist Suchmaschinen-Marketer, Content-Marketer und Customer-Journey-Enthusiast, bewegt sich als Schnittstelle zwischen verschiedenen Marketing-Welten und baut Brücken immer eine nutzerzentrierte Strategie im Auge.