3.7/5 - (3 votes)

Seit dem ersten Helpful Content Update in 2022 macht sich die SEO-Welt Gedanken darüber wie man „hilfreiche Inhalte“ erstellen oder ihn dahingehend optimieren kann. Es werden Hypothesen aufgestellt, Analysen, Checklisten und Audits erstellt. Ich blicke auf die meisten dieser Ansätze mit etwas Skepzis, da die Analyse-Erkenntnisse oft den Fokus auf die Eigenschaften des Contents selbst haben und aus der Sicht eines Menschen und nicht einer Maschine bzw. Algorithmen hergeleitet werden. Google ist eine Maschine, kein Mensch!

Mein SEO-Mantra ist:  „Think like an engineer, act like a human.“

Deswegen nähere ich mich in diesem Artikel dem Thema Helpful Content mit der Frage: Wie Google helpful content algorithmisch identifizieren kann und was sinnvoll ist.

Helpful Content, was ist das überhaupt?

Helpful Content ist eine Terminologie, die Google im Rahmen des ersten Hepful Content Updates im August 2022 eingeführt hat. Zuerst hatte Google angekündigt, dass es sich beim Helpful Content System, um einen „sitewide Classifier“ handelt. Später wurde bekannt, dass es auch für die Bewertung von einzelnen Dokumenten genutzt wird.

Our helpful content system is designed to better ensure people see original, helpful content written by people, for people, in search results, rather than content made primarily to gain search engine traffic.

Unsere zentralen Ranking-Systeme sind in erster Linie für den Einsatz auf Seitenebene konzipiert. Anhand verschiedener Signale und Systeme wird die Nützlichkeit der einzelnen Seiten ermittelt. Es gibt auch einige websiteweite Signale, die ebenfalls berücksichtigt werden.

Ich habe mich bereits im Rahmen des ersten Helpful Content Updates dazu geäußert, dass dieses Update nicht nur aufgrund des bedeutungschwangeren Titels vor allem ein PR-Update war. Meine Herleitung und Kritik kann man hier im Detail nachlesen.

Ein PR-Ziel von Google ist es Website-Betreiber dazu zu animieren Crawling, Indexierung und damit die Bewertung einfacher zu machen. Das war zumindest das Ziel der größten Updates wie z.B. die Umstellung auf  Page Speed Update, Page Experience Update, Spam Update … Diese Updates haben eins gemeinsam. Sie implizieren durch den vielsagenden konkreten Titel eine Handlungsempfehlung und helfen damit Google beim Information Retrieval.

Ich hätte das Helpful Content System eher „User Satisfaction System“ genannt. Aber dazu später mehr.

 

Was ist hilfreich?

Um diese Frage zu beantworten, sollte man sich etwas mit den Information-Retrieval-Begriffen Relevanz, Pertinenz und Nützlichkeit beschäftigen. Wie in meinem Artikel „Relevanz, Pertinenz und Qualität bei Suchmaschinen“ beschrieben sind diese Begriffe wie folgt beschrieben:

Relevant ist etwas für Suchmaschinen wenn ein Dokument bzw. Inhalt in Bezug auf die Suchanfrage bedeutsam ist.  Die Suchanfrage beschreibt die Situation und den Zusammenhang. Diese Relevanz ermittelt Google über Methodiken der Textanalyse, wie z.B. BM25, WDF*IDF bzw. TF-IDF, Word2Vec

Pertinenz beschreibt die subjektive Bedeutsamkeit eines Dokuments für den Nutzer. Das bedeutet neben dem Match mit der Suchanfrage kommt eine subjektive Nutzerebene dazu.

Nützlichkeit schränkt neben den Bedingungen für Relevanz und Pertinenz die Ebene der Neuartigkeit mit ein.

Pertinenz und Nützlichkeit sind für mich die beiden Ebene, die für helpfulness stehen.

Objektive Relevanz an sich ist nicht wirklich hilfreich, da jeder Nutzer unterschiedliche Absichten, Wissensstände … hat. Für eine Suchmaschine gilt es herauszufinden, welche Inhalte Nutzer als hilfreich und nützlich empfinden. Daher ist der fokussierte Blick auf die Nutzer-Interaktion bzw. das Nutzerverhalten im ersten Schritt sinnvoller, anstatt die Beschaffenheit eines Inhalts zu bewerten.

Wie kann man algorithmisch helpfullness bzw. Pertinenz und Nützlichkeit messen?

Die Pertinenz und Nützlichkeit lässt sich über die Zufriedenheit der Nutzer mit dem Inhalts ermitteln. Die beste Methode, um die Zufriedenheit von Nutzern festzustellen ist die Messung und Interpretation des Nutzerverhaltens. Das gibt neben der Relevanz des Inhalts zur Suchanfrage einen besseren Aufschluss darüber, ob Nutzer einen Inhalt im jeweiligen Kontext wirklich hilfreich finden. Die Analyse von Dokumenten oder Inhalts-Eigenschaften sagt nur bedingt etwas darüber aus wie hilfreich ein Inhalt ein Suchergebnis ist, da der Nutzer hier nicht berücksichtigt wird.

Hierfür gibt es verschiedene mögliche Metriken, die aus dem Google API Leak hervorgehen:

  1. CTR (Click-Through Rate)
    • ctrWeightedImpressions: This attribute tracks the weighted impressions for calculating CTR.
    • Source: GoogleApi.ContentWarehouse.V1.Model.IndexingSignalAggregatorAdaptiveIntervalData
  2. Good Clicks
    • goodClicks: This attribute tracks the number of good clicks.
    • lastGoodClickDateInDays: Indicates the date when the document received the last good click.
    • Source: GoogleApi.ContentWarehouse.V1.Model.QualityNavboostCrapsCrapsClickSignals
  3. Bad Clicks
    • badClicks: This attribute tracks the number of bad clicks.
    • Source: GoogleApi.ContentWarehouse.V1.Model.QualityNavboostCrapsCrapsClickSignals
  4. Long Clicks
    • lastLongestClicks: This attribute tracks the number of clicks that were the last and longest in related user queries.
    • Source: GoogleApi.ContentWarehouse.V1.Model.QualityNavboostCrapsCrapsClickSignals
  5. Short Clicks
    • While there isn’t a direct attribute named „short clicks,“ the absence of long clicks or a high number of bad clicks could imply shorter interactions.
    • Source: GoogleApi.ContentWarehouse.V1.Model.QualityNavboostCrapsCrapsClickSignals

Quelle: Google API Leak Analyzer

Weitere Faktoren, die ich aus Google Patenten recherchiert habe sind:

  1. Click-Through Rate (CTR):

    • Search Result Interaction: The percentage of users who click on a website link when it appears in search results.
    • Ad Performance: CTR for advertisements displayed on the site.
  2. Dwell Time:

    • Average Time on Site: The average time users spend on the page after clicking a search result.
    • Bounce Rate: The percentage of visitors who leave the site after viewing only one page.
  3. Good Clicks and Bad Clicks:

    • User Engagement Metrics: Metrics like page interactions (likes, shares, comments), bounce rates, and return visits.
    • Viewing Time: Longer views are given higher relevance, indicating good clicks, while shorter views are given lower relevance, indicating bad clicks.
  4. Long Clicks and Short Clicks:

    • Viewing Length: Measures the duration of time users spend viewing each document. Longer views (long clicks) are considered more relevant.

    • Weighting Functions: Applies continuous and discontinuous weighting functions to adjust relevance scores based on viewing time.

Patente:

      • „Ranking Factors or Scoring Criteria“
      • „Increased Importance of User Engagement Metrics“
      • „User Engagement as a Ranking Factor“

Quelle: Database Research Assistant

 

Die Nützlichkeit lässt sich durch Suchmaschinen zusätzlich über einen Information Gain Score ermitteln.

Der Information Gain bzw. Informationsgewinn bezieht sich auf einen Score, der angibt, wie viele zusätzliche Informationen ein Dokument über die üblichen Informationen hinaus enthält, die in den von einem Nutzer zuvor angesehenen Dokumenten enthalten sind.

Dieser Wert hilft bei der Bestimmung, wie viele neue Informationen ein Dokument dem Benutzer im Vergleich zu dem, was der Benutzer bereits gesehen hat, bietet.

Mehr zum Information Gain findest du im Artikel Information Gain: Wie wird er berechnet? Welche Faktoren sind entscheidend?

Identifikation von hilfreichen Dokumenten-Eigenschaften, anhand der Nutzersignale

Eine weitere Möglichkeit ist über positive Nutzersignale in statistisch valider Menge vermeintliche Dokumenten-Eigenschaften oder Dokumenten-Muster zu identifzieren, die für Nutzer hilfreich sein könnten.

In dem Google Patent „Ranking Search Result Documents“ wird eine Methodik beschrieben, die aufgrund der vergangenen Nutzer-Interaktionen u.a.  Eigenschaften der Suchanfragen mit Dokumenten Eigenschaften abgleicht.

 

Diese Methode würde allerdings viel Rechner-Ressourcen kosten. Zudem hätte eine solche Methodik immer einen größeren Zeitversatz zur Folge bis die Ergebnisse aussagekräftig sind.

Das Zusammenspiel aus initialen Ranking und Reranking

Um zu verstehen an welcher Stelle des Ranking Prozess helpful content ermittel wird ein kurzer Exkurs in Teile des Information Retrieval Prozess.

Im Ranking-Prozess gibt es drei Schritte:

  1. Dokumenten Scoring
  2. Quality Classification
  3. Reranking

Das Dokumenten Scoring ist für das initiale Ranking der Top-n Dokumente zuständig. Hier wird ein sogenannter Ascorer genutzt, um IR-Scores zu errechnen. Wie hoch das das n ist nur zu vermuten. Ich gehe hier aus Performance-Gründen von maximal wenigen hunderten Dokumenten aus.

Bei der Quality Classification spielen vor allem Signale mit Bezug zu E-E-A-T eine Rolle. Hier wird die Beschaffenheit der einzelnen Dokumente nicht bewertet, sondern seitenweite Klassifikatoren eingesetzt.

Beim Reranking werden sogenannte Twiddler eingesetzt.

Twiddlers are components within Google’s Superroot system designed to re-rank search results from a single corpus. They operate on ranked sequences rather than isolated results, making adjustments to the initial ranking provided by Ascorer. There are two types of Twiddlers: Predoc and Lazy.

    1. Predoc Twiddlers:
      • Operation: Run on thin responses (initial search results with minimal information).
      • Functions: Modify IR scores, reorder results, and perform remote procedure calls (RPCs).
      • Use Case: Suitable for broad, initial adjustments and promoting results based on preliminary data.
    2. Lazy Twiddlers:
      • Operation: Run on fat results (detailed document information).
      • Functions: Reorder and filter results based on detailed content analysis.
      • Use Case: Ideal for fine-tuning and filtering based on specific content attributes.

For more detailed information, you can refer to the „Twiddler Quick Start Guide“ here.

Quelle: Database Research Assistant

Diese Twiddler können laut dem API-Leak neben der Dokumenten-Ebene auch für  die Bewertung auf Domain-Ebene genutzt werden.

Twiddlers are used in Google’s ranking and indexing processes to adjust the relevance and ranking of documents. They are essentially factors or signals that can be „twiddled“ or adjusted to fine-tune the search results. Here are some key points about twiddlers based on the provided documents:

    1. Domain Classification:

      • Twiddlers can be used to classify the domain of a document, which helps in understanding the context and relevance of the content.
      • Source: „qualityTwiddlerDomainClassification“ – Google-Leak_API-Module_zusammengefasst
    2. Spam Detection:

      • Twiddlers play a role in identifying and mitigating spam. They can adjust the ranking of documents that are flagged by spam detection algorithms.
      • Source: „spamBrainSpamBrainData“ – Google-Leak_API-Module_zusammengefasst
    3. Content Quality:

      • Twiddlers can influence the perceived quality of content by adjusting scores based on various quality signals.
      • Source: „commonsenseScoredCompoundReferenceAnnotation“ – Google-Leak_API-Module_zusammengefasst
    4. Shopping and Ads:

      • For e-commerce and shopping-related queries, twiddlers can adjust the relevance of shopping annotations and ads.

      • Source: „adsShoppingWebpxRawShoppingAnnotation“ – Google-Leak_API-Module_zusammengefasst

Quelle: Google API Leak Analyzer

Die Twiddler sind ein Teil von Googles Superroot für ein nachgelagerte Qualitätsbewertung im Sinne von u.a. auch helpfullness auf einer Dokumenten- und Domain-Ebene verantwortlich.

Quelle: Interne Google Präsentation „Ranking for Research“, November 2018

Für die Bewertung hinsichtlich Helpful Content machen objektive Rankingfaktoren, ausser Information Gain, keinen Sinn, da sie nicht den Nutzer im Fokus haben. Diese Faktoren werden vor allem beim initialen Ranking über den Ascorer berücksichtig.

Es macht Sinn, dass Google Helpful Content vor allem anhand der verschiedenen möglichen Nutzersignalen und einem Information Gain Score bewertet, der aber auch sehr personalisiert Nutzer individuell bewertet werden kann.

Helpful Content hat eine Korrelation mit dem Content, ist aber kausal zu den Nutzersignalen

Wie eingangs erwähnt bin ich skeptisch, was viele Analysen und Checklisten hinsichtlich Helpful Content angeht, weil ich denke, dass Google helpfullness vor allem aufgrund von Nutzersignalen bewertet und nicht aufgrund von Dokumenten-Eigenschaften. Sprich eine Analyse einzelner Inhalte hinsichtlich helpfullness ohne Einblick in Nutzerdaten zu haben halte ich für nur bedingt aussagekräftig.

Natürlich möchte man mit der Optimierung von Inhalten die Nutzersignale verbessern, aber am Schluss entscheidet der Nutzer, ob er/sie einen Inhalt hilfreich findet oder nicht und nicht der SEO, der bestimmte Eigenschaften eines Dokuments gemäß einer Checkliste optimiert.

Zudem ist die Entscheidung des Nutzers, ob er/sie einen Inhalt hilfreich findet abhängig von Thema und Kontext. Sprich die Empfehlungen zur Optimierung sind auch immer davon abhängig.

Es kann Korrelationen zwischen Dokumenten Eigenschaften zu Helpful Content geben, aber am Schluss besteht die Kausalität zu den Nutzersignalen.

Mit anderen Worten: Wenn man ein Content optimiert und sich die Nutzersignale nicht verbessern, wird dieser auch nicht hilfreicher. Google muss erst anhand der Nutzersignale lernen was hilfreich ist.

Interne Google Präsentation „Google is magical“, Oktober 2017

Diese These wird untermauert durch die Erkenntnnisse, die man aus dem Antitrust-Verfahren gegen Google ziehen konnte. Demnach ist das Verständnis / Qualität eines Inhalts nur aufgrund des Dokuments selbst nur bedingt abzuleiten.

Quelle: Interne Google Präsentation „Ranking for Research“ von November 2018

 

Der Wunsch nach einer Blaupause am besten in Form von Checklisten ist in der SEO-Branche groß. Deswegen bekommen sie auch immer große Aufmerksamkeit und sind populär. Sie hängen der Zeit aber hinterher, da sich das Bedürfnis und damit die helpfullness eines Inhalts je Suchanfrage sehr dynamisch sein kann.

Auch der Wunsch nach Klarheit,was z.B. Google Updates und mögliche Gründe für eine Abstrafung angeht ist groß. Deswegen sind Analysen der Google Updates auch sehr beliebt.

Aber wenn der Content King ist, sind Nutzersignale Queen und sie bestimmen am Schluss für wie hilfreich ein Inhalt von Google bewertet wird. Da die meisten Analysen hinsichtlich Core Updates und Helpful Content sich an den Eigenschaften von Dokumenten und Domains orientieren stellen sie maximal Korrelationen dar, aber keine Kausalitäten dar.

Eine Theorie wie z.B. Google wertet Websites wegen Affiliates-Links ab oder weil sie nicht die richtigen Entitäten oder Keywords erwähnen ist nicht sinnvoll. Google wertet Websites ab, weil die Nutzersignale nicht entsprechend sind und sie keinen Information Gain bieten, somit nicht den Nutzerbedürfnissen entsprechen und damit für viele Nutzer nicht hilfreich sind. Google wertet Seiten im Reranking nicht ab wegen bestimmter Dokumenten-Eigenschaften.

Für mich ist das Helpful Content System eher ein Rahmen, der alle genutzten Nutzersignale und darauf basierenden Bewertungssysteme zusammenfasst. Deswegen würde ich es eher „User Satisfaction System“ nennen.

Was ist Deine Meinung? Lass uns diskutieren!

Zu Olaf Kopp

Olaf Kopp ist Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung in Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO & Content bei der Online Marketing Agentur Aufgesang GmbH. Olaf Kopp ist international anerkannter Branchenexperte für semantische SEO, E-E-A-T, KI- und Suchmaschinen-Technologie, Content-Marketing und Customer Journey Management. Er ist Gründer der weltweit ersten Datenbank für Patente und Research Paper, die jeder SEO kennen sollte. Als Autor schreibt er für nationale und internationale Fachmagazine wie Searchengineland, t3n, Website Boosting, Hubspot Blog, Sistrix Blog, Oncrawl Blog ... . 2022 war er Top Contributor bei Search Engine Land. Als Speaker stand er auf Bühnen der SMX, SEA/SEO World, CMCx, OMT, Digital Bash oder Campixx. Er ist ist Host der Podcasts OM Cafe und Digital Authorities. Er ist ist Autor des Buches "Content-Marketing entlang der Customer Journey", Co-Autor des Standardwerks "Der Online Marketing Manager" und Mitorganisator des SEAcamp.

Kommentare sind geschlossen.