Google hat Informationen zu seinen Ranking-Systemen offengelegt. Mit diesen Informationen, eigenen Gedanken und Recherchen z.B. in Google Patenten will ich in diesem Beitrag die Puzzlestücke zu einem Gesamtbild zusammenfügen.
Dabei gehe ich nicht im Detail auf Rankingfaktoren und deren Gewichtung ein, sondern im Fokus auf die Funktionalität.
Disclaimer: Einige Annahmen in diesem Beitrag beruhen auf meinen eigenen Gedanken und Annahmen, die ich alle aus verschiedenen Quellen entwickelt habe.
Inhaltsverzeichnis
- 1 Warum sollten sich SEOs mit der Funktionsweise von Suchmaschinen / Google beschäftigen?
- 2 Prozessschritte für Information Retrieval, Ranking und Knowledge Discovery bei Google
- 3 Indexierung und Crawling
- 4 Welche Google Indexe gibt es?
- 5 Search Query Processing
- 6 Welche Google-Ranking-Systeme gibt es?
- 7 Wie funktionieren die unterschiedlichen Ranking-Systeme zusammen?
- 8 Weitere Beiträge zur Funktionsweise von Google
Warum sollten sich SEOs mit der Funktionsweise von Suchmaschinen / Google beschäftigen?
Sich nur mit Rankingfaktoren und möglichen Optimierungsmaßnahmen zu beschäftige ohne die Funktionsweise einer moderne Suchmaschine wie Google zu verstehen, halte ich für nicht sinnvoll. Es gibt viele Mythen und Spekulationen in der SEO-Branche, denen man blind folgt wenn man nicht eigene Ranking-Erfahrungen macht. Um Mythen vorab einzuschätzen hilft es sich mit der grundsätzlichen Funktionsweise von Google zu beschäftigen. Diese Beitrag soll Dir dabei helfen.
Prozessschritte für Information Retrieval, Ranking und Knowledge Discovery bei Google
Laut den Erläuterungen im hervorragenden Vortrag “How Google works: A Google Ranking Engineer’s Story” von Paul Haahr unterscheidet Google nach folgenden Prozessschritten:
- Before a query:
- Crawling
- Analyzing crawled pages
- Extract links
- Render contents
- Annotate semantics
- …
- Build an index
- Query Processing
- Query understanding
- Retrieval and scoring
- post retrieval adjustments
Indexierung und Crawling
Vorweg Indexierung und Crawling ist die Grundvoraussetzung für das Ranking, hat aber sonst nichts mit dem Ranking von Inhalten zu tun.
Google crawlt sekündlich das Internet über Bots. Diese Bots werden auch Crawler genannt. Die Google Bots folgen Links, um neue Dokumente/Inhalte zu finden. Aber auch nicht im html code ausgewiesene URLs und Direkteingaben von URLs im Chrome-Browser können Google für das Crawling genutzt werden.
Findet der Google Bot neue Links werden diese in einem Scheduler gesammelt, um sie später abzuarbeiten.
Domains werden unterschiedlich häufig und vollständig gecrawlt bzw. Domains werden unterschiedliche Crawling Budgets zugeteilt. Früher war der PageRank ein Hinweis auf die Crawling-Intensität, die einer Domain zugeteilt wird. Weitere Faktoren können neben der externen Verlinkung auch Publishing-Frequenz sowie Aktualisierungs-Frequenz sowie der Website Typ sein. News-Seiten, die bei Google News stattfinden, werden i.d.R. häufiger gecrawlt. Laut Google gibt es keine Probleme mit dem Crawling Budgets bis ca. 10.000 URLs. Sprich die meisten Websites haben kein Problem vollständig gecrawlt zu werden.
Die Indexierung findet in zwei Stufen statt.
Im ersten Schritt wird der reine html code zuerst mit einem Parser so aufbereitet, dass er ressourcensparend in einen Index übernommen werden kann.
Sprich, die erste indexierte Version eines Inhalts ist die gerenderte Form. Dadurch spart Google Zeit beim Crawling und damit auch bei der Indexierung.
In einem zweiten späteren Schritt wird die indexierte html-Version gerendert, also so dargestellt. wie der Nutzer ihn in einem Browser sieht.
Wenn Google generelle Probleme mit den Indexierung- und Crawlingsystemen hat kann man diese in dem offiziellen Google Search Status Dashboard sehen.
Welche Google Indexe gibt es?
Bei Google kann grundsätzlich zwischen zwei Index-Arten unterschieden werden.
- Der klassische Suche-Index enthält alle Inhalte, die Google indexieren kann. Je nach Inhalts-Art unterscheidet Google noch in die sogenannten vertikalen Indexe wie z.B. klassischer Dokumenten-Index (Text), Bilder Index, Video-Index, Flüge, Bücher, News, Shopping, Finanzen. Der klassische Suche-Index besteht aus tausenden von shards, die Millionen von Websites beinhalten. Aufgrund der Größe des Index ist es aufgrund der parallelen Abfragen der Websites in den einzelnen shards möglich sehr schnell die Top n Dokumente / Inhalte je shard zusammenzustellen.
- Der Knowledge Graph ist Googles semantischer Entitäten-Index. Im Knowledge Graph werden alle Informationen rund um Entitäten und deren Beziehungen untereinander erfasst. Informationen zu den Entitäten bezieht Google aus verschiedenen Quellen.
Google ist über Natural Language Processing immer besser in der Lage unstrukturierte Informationen aus Suchanfragen und Online-Inhalten zu extrahieren, um darüber Entitäten zu identifizieren oder Daten Entitäten zuzuordnen. Mit MUM kann Google nicht nur Textquellen dafür nutzen, sondern auch Bilder, Videos und Audios.
Für das Data Mining kann Google sowohl einen Query Processor als auch eine Art Entitäten-Prozessor bzw. Semantische API zwischen dem klassischen Suche-Index nutzen. (siehe dazu auch das Google Patent “Search Result Ranking and Representation”)
Search Query Processing
Die Magie bei der Interpretation von Suchtermen geschieht beim Search Query Processing. Hier sind folgende Schritte wichtig:
- Identifikation der thematischen Ontologie, in der sich die Suchanfrage bewegt. Ist der thematische Kontext klar kann Google einen Inhalts-Korpus aus Text-Dokumenten, Videos, Bildern … als potentiell passende Suchergebnisse auswählen. Das ist insbesondere bei mehrdeutigen Suchtermen schwierig. Mehr dazu in meinem Beitrag Knowledge Panel & SERPs for ambigous search queries.
- Identifikation von Entitäten und deren Bedeutung im Suchterm (Named entity recognition)
- Semantische Annotation der Suchanfrage
- Verfeinerung des Suchterms
- Verstehen der semantischen Bedeutung einer Suchanfrage.
- Identifikation der Suchintention
Ich habe hier bewusst zwischen 2. und 3- unterschieden, da die Suchabsicht erstens je nach Nutzer variieren und sich sogar mit der Zeit verändern kann, die lexikalische semantische Bedeutung bleibt hingegen gleich.
Für bestimmte Suchanfragen wie z.B. offensichtliche Fehlschreibweisen oder Synonyme findet automatisch im Hintergrund ein Query Refinement statt. Man kann als Nutzer die Verfeinerung der Suchanfrage aber auch manuell anstoßen, insofern Google nicht sicher ist, ob es sich um einen Tippfehler handelt. Beim Query Refinement wird eine Suchanfrage im Hintergrund umgeschrieben, um die Bedeutung besser interpretieren zu können.
Neben dem Query Refinement findet beim Query Processing auch ein Query Parsing statt, das der Suchmaschine ermöglicht, die Suchanfrage besser zu verstehen. Dabei werden Suchanfragen so umgeschrieben, dass auch Suchergebnisse geliefert werden können, die nicht direkt zur Suchanfrage selbst passen, sondern auch zu verwandten Suchanfragen. Mehr dazu hier.
Eine ausführliche Darstellung des Search Query Processing findest Du in dem Beitrag Wie versteht Google Suchanfragen durch Search Query Processing?
Welche Google-Ranking-Systeme gibt es?
Google unterscheidet hier zwischen folgenden Ranking-Systemen:
- AI Ranking Systeme
- Rankbrain
- BERT
- MUM
- Crisis information systems
- Deduplication systems
- Exact match domain system
- Freshness system
- Helpful content system
- Link analysis systems and PageRank
- Local news systems
- Neural matching
- Original content systems
- Removal-based demotion systems
- Page experience system
- Passage Ranking system
- Product review system
- Reliable information system
- Site diversity system
- Spam detection system
- Retired Systems
- Hummingbird (wurde weiterentwickelt)
- Mobile friendly ranking system (jetzt Teil des Page experience systems)
- Page speed system (jetzt Teil des Page experience systems)
- Panda system (seit 2015 Teil des Core Systems)
- Penguin System (seit 2016 Teil des Core Systems)
- Secure sites system (jetzt Teil des Pages experience systems)
Diese Ranking-Systeme kommen in verschiedenen Prozessschritten der Google-Suche zum Einsatz.
Wie funktionieren die unterschiedlichen Ranking-Systeme zusammen?
Abschließend versuche ich die vielen Informationen seitens Google zur Funktionalität ihrer Suchmaschinen in ein Gesamtbild zu bringen.
Für die Interpretation der Suchanfragen, Identifikation der Suchintention, das Query Refinement, das Query Parsing und das Search Term Document Matching ist ein Query Processor zuständig. Das Search Query Processing kann nach dem klassischen Keyword basierten Term x Document Matching durchgeführt werden oder nach dem einem Entitäten basierten Ansatz, je nachdem ob Entitäten in der Suchanfrage vorkommen und bereits erfasst sind oder nicht.
Der Entity-Processor oder Semantic API bildet die Schnittstelle zwischen dem Knowledge Graph und dem klassischen Suche Index. Hierüber kann Named Entity Recognition und Data Mining für den Knowledge Graph bzw. Knowledge Vault z.B. via Natural Language Processing stattfinden. Mehr dazu im Beitrag “Natural Language Processing to build a semantic database”.
Für das Google Ranking ist die Scoring Engine, ein Entity- und Sitewide Qualifier und eine Ranking Engine verantwortlich. Bei den Rankingfaktoren unterscheidet Google zwischen Suchanfrage-abhängigen (z.B. Keywords, Proximity, Synonyme …) und Suchanfrage-unabhängigen (z.B. PageRank, Sprache, Page Experience…) Rankingfaktoren. Ich würde noch zwischen Dokumentenbezogenen Rankingfaktoren und Domain bzw. Entitäts-bezogenen Rankingfaktoren unterscheiden.
In der Scoring Engine findet eine Relevanz-Bewertung auf Dokumentenebene in Bezug auf die Suchanfrage statt. Beim Entity- und Sitewide Qualifier geht es um die Bewertung des Publishers und/oder Autors sowie die Qualität des Contents im Gesamten in Bezug auf Themen und UX der Website-(Bereiche).
Die Ranking Engine bringt die Bewertung aus der Scoring Engine und dem Entity- und Sitewide Qualifier zusammen und bringt die Suchergebnisse in eine Reihenfolge.
Eine Cleaning Engine sortiert doppelte Inhalte aus und bereinigt die Suchergebnisse von Inhalten, die eine Abstrafung bekommen haben.
Ein Personalisierungs-Layer berücksichtigt zum Schluss Faktoren wie die Suchhistorie oder bei regionaler Suchintention den Standort oder andere lokale Rankingfaktoren.
Klingt das logisch? Wenn ja freue mich darüber, wenn Du das Wissen teilst.
Weitere Beiträge zur Funktionsweise von Google
Noch nicht genug? Ich beschäftige mich seit 2014 intensiv mit Büchern, Google Quellen und Google Patenten über moderne Suchmaschinen-Technologien. Hier eine Auswahl an Beiträgen, die ich dazu verfasst habe:
- Artikelreihe semantische SEO
- All you should know as an SEO about entity types, classes and attributes
- How Google can identity and interpret entities from unstructured content
- Googles journey to a semantic search engine
- How Google can identify and rank relevant documents via entities, NLP & vector space analysis
- Insights from the the whitepaper “How Google fights misinformation” on E-A-T and Ranking
- What is semantic search: A deep dive into entity based search
- How Google uses NLP to better understand search queries, content
- Entities and E-A-T: The role of entities in authority and trust
- 14 ways Google may evaluate E-A-T
- Most interesting Google patents for SEO from 2022
- Die Rolle von Content-Arten und -Formaten in der Customer Journey - 1. Juni 2023
- Marketing wir haben ein Problem! Silos und fehlende Schnittstellen - 30. Mai 2023
- Branding vs. Performance Marketing: Warum diese Diskussion überflüssig ist - 23. April 2023
- Die Dimensionen des Google-Rankings - 15. April 2023
- In Zeiten von E-E-A-T: Warum einfach SEO nicht mehr reicht - 31. März 2023