Spätestens nach der Bekanntgabe von Google im November 2015, dass ein neues sehr wichtiges Ranking-Signal bzw. wichtiger Ranking-Faktor  namens Rankbrain bereits seit Monaten im Einsatz ist, ist das Interesse an dem Thema Machine-Learning in der SEO- und Online-Marketing-Gemeinde endgültig angekommen. Ich halte das Thema Machine Learning gerade im digitalen Kontext für ähnlich einschneidend und zukunftsweisend wie z.B. die Themen Mobile, Big Data und Content-Marketing. Wie Machine-Learning im Zusammenhang mit anderen aktuellen Buzzwords wie Artificial Intelligence (Künstliche Intelligenz), Semantik oder Deep Learning steht und welche Auswirkungen diese Entwicklung hin zu selbstlernenden Algorithmen auf Suchmaschinen hat möchte ich nachfolgend erläutern. Dabei möchte ich darauf hinweisen, dass ich das Thema Künstliche Intelligenz bzw. Machine Learning nur oberflächlich betrachten konnte. Wer tiefer in die Materie einsteigen möchte findet am Ende des Beitrags eine ausführliche Quellen-Sammlung an Videos und Links zu dem Thema.

Machine-Learning

Was ist Machine Learning? Bedeutung, Definition & Methodik

Die aktuelle und vor allem zukünftige Bedeutung von Machine Learning ist im digitalen Kontext ähnlich einzuordnen wie die Themen Mobile, Big Data oder Content-Marketing. Auch die Schlagzahl der medialen Präsenz der Themen nimmt seit 2014 deutlich zu, wie man bei Google-Trends nachverfolgen kann.

Google Trends: Entwicklung des Suchvolumens für Big Data, Machine Learning und Content-Marketing

Google Trends: Weltweite Entwicklung des Suchvolumens für Big Data (gelb), Machine Learning (blau) und Content-Marketing (rot)

Wie ich in meinem Beitrag Das semantische Web (Web 3.0) als logische Konsequenz aus dem Web 2.0 bereits erläutert habe sind Systeme, die Informationen identifizierbar, kategorisierbar, bewertbar und je nach Kontext sortierbar machen die einzige Möglichkeit der Informations- und Datenflut begründend auf den Innovationen des Web 2.0 herr zu werden. Doch hier reicht reine Semantik nicht aus. Deswegen benötigen die digitalen Gatekeeper immer zuverlässigere Algorithmen um diese Aufgabe zu bewerkstelligen. Hier werden zukünftig selbstlernende Algorithmen basierend auf  Artificial Intelligence und Methoden des Machine-Learnings eine immer wichtigere Rolle spielen. Nur so kann die Relevanz von Ergebnissen bzw. erwartungskonforme Ausgaben / Ergebnisse gewährleistet werden.

Doch was ist Machine-Learning nun genau und wie funktioniert es?

Machine Learning ist im Themenfeld Artficial Intelligence zu deutsch Künstliche Intelligenz zu verorten. Der Bereich Artificial Intelligence teilt sich in folgende Teilbereiche auf:

1. Reasoning
2. Knowledge representation
3. Automated planning and scheduling
4. Machine Learning
5. Natural language processing
6. Computer vision
7. Robotics
8. General intelligence, or strong AI

Der Begriff Intelligenz trifft in Bezug auf Machine-Learning nicht ganz zu, da es weniger um Intelligenz, viel mehr um durch Maschinen bzw. Computer erkennbare Muster und Genauigkeit geht. Machine Learning befasst sich mit der automatisierten Entwicklung von Algorithmen basierend auf empirischen Daten bzw. Trainings-Daten. Dabei liegt der Fokus auf der Optimierung der Ergebnisse bzw. Verbesserung der Vorhersagen aufgrund von Lernprozessen.

Künstliche Intelligenz hat zum Ziel Entscheidungen aufgrund erhobener Daten gemäß eines Menschen zu treffen. Dafür bedarf es mehr als nur Machine-Learning-Methodiken. Die Technologie hinter dem Machine-Learning sind sogenannte Neural Networks.

 

Was sind Neurale Netzwerke?

Neural Network zu deutsch Neurale Netzwerke sind Gruppen von Algorithmen, die gemäß eines menschlichen Gehirns aufgebaut sind, um wiederkehrende Muster zu erkennen und diese daraufhin zu ordnen bzw. zu etikettieren. Die erkannten Muster werden in mathematisch Vektoren übersetzt. Dabei werden alle Informationen der realen Welt wie Bilder, Sound, Text oder Zeitfolgen berücksichtigt.

Neurale Netzwerke helfen über mehrere Ebenen hinweg für das jeweilige System neue Informationen aufgrund von Ähnlichkeiten zu klassifizieren und in Modellgruppen zusammenzufassen. Labels helfen dabei diese Gruppen zu benennen. Beispiele für Labels können sein: Spam, Kein Spam, Zufriedener Kunde, Unzufriedener Kunde, Gekaufter Link, Nicht gekaufter Link 😉  …

Die folgende Folie aus einem Vortrag von Googles Jeff Dean, veranschaulicht, dass bestimmte Muster z.B. eines Bilds eines Löwen immer wiederkehrend sind, Aufgrund dieser immer wieder kehrenden Muster kann man über Machine Learning automatisiert das Bild eines Löwen interpretieren und etikettieren.

Quelle: Präsentation Jeff Dean / Google

Quelle: Präsentation Jeff Dean / Google

Neurale Netzwerke bestehen aus mehreren Ebenen bzw. Layern, die in Reihe geschaltet zur Verfeinerung bzw. Genauigkeit der Annahmen beitragen. Wer sich noch tiefer mit dem Thema beschäftigen findet hier eine schöne Einführung.

 

Machine-Learning-Arten

 

Man unterscheidet grundsätzlich in drei verschiedene Arten des Machine Learnings:

  • Überwachtes Lernen
  • Unüberwachtes Lernen
  • Bestärkendes Lernen

Dazu ein Auszug aus der deutschen Wikpiedia:

  • Überwachtes Lernen (engl. supervised learning)Der Algorithmus lernt eine Funktion aus gegebenen Paaren von Ein- und Ausgaben. Dabei stellt während des Lernens ein „Lehrer“ den korrekten Funktionswert zu einer Eingabe bereit. Ziel beim überwachten Lernen ist, dass dem Netz nach mehreren Rechengängen mit unterschiedlichen Ein- und Ausgaben die Fähigkeit antrainiert wird, Assoziationen herzustellen. Ein Teilgebiet des überwachten Lernens ist die automatische Klassifizierung. Ein Anwendungsbeispiel wäre die Handschrifterkennung.

 

  • Unüberwachtes Lernen (engl. unsupervised learning)Der Algorithmus erzeugt für eine gegebene Menge von Eingaben ein Modell, das die Eingaben beschreibt und Vorhersagen ermöglicht. Dabei gibt es Clustering-Verfahren, die die Daten in mehrere Kategorien einteilen, die sich durch charakteristische Muster voneinander unterscheiden. Das Netz erstellt somit selbständig Klassifikatoren, nach denen es die Eingabemuster einteilt. Ein wichtiger Algorithmus in diesem Zusammenhang ist der EM-Algorithmus, der iterativ die Parameter eines Modells so festlegt, dass es die gesehenen Daten optimal erklärt. Er legt dabei das Vorhandensein nicht beobachtbarer Kategorien zugrunde und schätzt abwechselnd die Zugehörigkeit der Daten zu einer der Kategorien und die Parameter, die die Kategorien ausmachen. Eine Anwendung des EM-Algorithmus findet sich beispielsweise in den Hidden Markov Models (HMMs). Andere Methoden des unüberwachten Lernens, z. B. Hauptkomponentenanalyse verzichten auf die Kategorisierung. Sie zielen darauf ab, die beobachteten Daten in eine einfachere Repräsentation zu übersetzen, die sie trotz drastisch reduzierter Information möglichst genau wiedergibt.

 

  • Bestärkendes Lernen (engl. reinforcement learning)Der Algorithmus lernt durch Belohnung und Bestrafung eine Taktik, wie in potenziell auftretenden Situationen zu handeln ist, um den Nutzen des Agenten (d. h. des Systems, zu dem die Lernkomponente gehört) zu maximieren. Dies ist die häufigste Lernform eines Menschen.

Dazu habe ich auch in dieser Präsentation von Rahul Jain einige gute Grafiken gefunden. (Verlinkung zur Präsentation am Ende des Artikels).

überwachtes-Lernen

Machine-Learning-Prozess: Überwachtes Lernen

Das Überwachte Lernen bedarf Einiges an Vorarbeit, denn es müssen Beispielmodelle im Vorfeld festgelegt und belabelt werden, um eingehende Informationen zu identifizieren und dieser Modellgruppe zuordnen zu können bzw. zu klassifizieren. Diese Belabelung wird aufgrund der Qualitätssicherung in der Regel durch menschliche Hand durchgeführt. Aufgrund bestimmter immer wieder auftretender Muster kann das System dann, zukünftig  Informationen mit gleichen oder ähnlichen Muster-Eigenschaften  selbstständig erkennen und der jeweiligen Modellgruppe zuordnen.

unüberwachtes-Lernen

Machine-Learning-Prozess: Unüberwachtes Lernen

Beim Unüberwachten Lernen findet die Vorab-Belabelung nicht statt und die Modellgruppen werden automatisiert aufgrund von Mustern gebildet.

Bestärkendes-Lernen

Machine-Learning-Prozess: Bestärkendes Lernen

Ähnlich wie mit dem Begriff Artificial Intelligence wird der Begriff Machine Learning mit Deep Learning und Semantik oft gleichgesetzt bzw. im selben Atemzug genannt. Nachfolgend ein Versuch der Differenzierung.

Unterschied zwischen Machine Learning und Deep Learning

Deep Learning ist ein Teilbereich des Machine Learnings, könnte auch als Weiterentwicklung bezeichnet werden. Während klassische Machine-Learning Algorithmen auf feste Modellgruppen zur Erkennung und Klassifizierung zurückgreifen, entwickeln Deep-Learning Algorithmen eigenständig diese Modelle weiter bzw. erstellen eigenständig neue Modellebenen innerhalb der Neuralen Netzwerke. Dadurch müssen nicht immer wieder Modelle für neue Begebenheiten manuell entwickelt und eingeführt werden, wie es bei klassischen Machine-Learning-Algorithmen der Fall wäre. So sind auch Vorraussagen durch Deep-Learning-Algos besser zu treffen. Dazu diese Grafik (Die Orginaquelle ist leider nicht mehr online. Deswegen der Verweis auf diesen Beitrag.)

deep-learning-workflow

 

Abgrenzung zwischen Machine Learning und Semantik

Die Semantik kann dabei helfen die Bedeutung eines Objekts über die Klassifizierung als eindeutige Entität und über die Beziehungen mit anderen Entitäten besser zu indentifizieren. Bei der Klassifizierung greift die Semnatik auf Eigenschaften ähnlich der Muster bei der Zuordnung zu Modellgruppen im Machine Learning zurück. Der entscheidende Unterschied ist aber, dass die Semantik keinen keinen Lernprozess verfolgt, wie es beim Machine Learning der Fall ist. Dadurch sind semantische Systeme eher statisch und nur schlecht in der Lage Vorraussagen für neu eintretende Situation durchzuführen. Modellgruppen und Muster bzw. Enitäten müssen bekannt sein.

 

Machine Learning und (Suchmaschinen-) Algorithmen

Das spannende an dieser Entwicklung hin zum Machine-Learning ist, dass Algorithmen sich zukünftig selbst weiter entwickeln und anpassen können. Bisher wurden z.B. bei Google der Suchalgorithmus wie folgt weiter entwickelt.

Eine durchschnittliche Veränderung an den Algorithmen beginnt mit einer Idee zur Verbesserung der Suche von einem der Google-Entwickler. Sie folgen einem datenbasierten Ansatz und alle vorgeschlagenen Algorithmusänderungen werden vor der Veröffentlichung im Rahmen einer umfangreichen Qualitätsbewertung getestet.

In der Regel führen Entwickler zu Beginn eine Reihe von Experimenten durch, optimieren die eine oder andere Variable und bitten Kollegen um Feedback. Wenn sie mit dem Ergebnis zufrieden sind, wird das Experiment für ein größeres Publikum freigegeben.

 

Algorithmus-Weiterentwicklung bei Google  Quelle: Google

Algorithmus-Weiterentwicklung bei Google Quelle: Google

Die Folge ist ein statischer allgemeiner Algorithmus, der durch viele kleinere und größere Updates weiter entwickelt wird. Dieser Algorithmus ist für jede Situation gleich. Tauchen völlig neue vorher nie da gewesene Situationen auf ist der Algo erst einmal überfordert. Auch die Berücksichtigung jedes inviduellen Kontexts, wie z.B. Standort, genutztes Endgerät …  in dem sich ein Nutzer befindet muss dieser eine Algorithmus bedienen. Im Optimalfall hätte jeder Nutzer oder zumindest Nutzergruppe einen eigenen individuellen Algorithmus „verdient“, um gemäß des jeweiligen Kontexts bedient zu werden. Das ist mit dem bisherigen relativ statischem Algorithmus nicht möglich.

Es ist nicht möglich für jede Aufgaben einen eigenen Algorithmus zu schreiben. Es müssen Algorithmen geschrieben werden, die aufgrund von Beobachtungen lernen. Machine-Learning würde dies möglich machen und Google geht bereits in diese Richtung.

Zudem hat Google Signale von Nutzerseite, die als Erfolgsmetriken im Lernprozess genutzt werden können:

  • Long to Short Click Ratio
  • Anteil der Suchenden die verwandte und zusätzliche Suchanfragen durchführen
  • Kennzahlen für Nutzer-Engagement (ermittelbar z.B. über Chrome)
  • Relative Kickrate in den SERPs
  • Geteilte Inhalte
  • Nutzer Engagement auf den Websites

Im Zusammenspiel mit den klassischen Offpage-Ranking-Signalen wie Backlinks, Co-Citations und Co-Occurences können diese als Erfolgsmetriken zur Verifizierung einer Einschätzung durch den Algorithmus genutzt werden.

Eine interessante Frage ist Woher bezieht Google die Nutzerbezogenen Trainings-Daten zum Einleiten des Machine-Learning-Prozess?

Sind es echte Nutzerdaten oder bedient sich Google hier zukünftig weiter der Daten, die durch die Such-Evaluatoren vzw. Quality-Rater in einer Testumgebung generiert werden?

(Diskussionen u.a. hierzu gerne in den Kommentaren.)

Das obige Modell zur Algorithmus-Weiterentwicklung nach und nach obsolet zu werden. Ein Beleg dafür sind auch die immer häufiger werdenden Real-Time-Updates wie z.B. das Real-Time-Pinguin Updates oder die „nebenher laufenden“ Panda Updates. Früher wurden kommende Updates groß angekündigt und von den Kollegen wie z.B. sistrix dokumentiert. Ich denke solche Dokumentationen werden bald ihre Sinnhaftigkeit verloren haben. Und auch Studien und Übersichten von Rankingfaktoren wie wir sie bisher kennen werden in ein paar Jahren Geschichte sein. Aber dazu weiter unten mehr.

Google bezieht schon eine Menge von Informationen aus verschiedenen Ebenen beim Indexieren und Ranking ein, die irgendwie im Algorithmus berücksichtigt werden müssen

  • Text
  • Visuelles (Bilder, Videos)
  • Audio
  • Nutzerverhalten
  •  Knowledge Graph (Abbild von Beziehungen)

Dabei kann Google inzwischen auch schon Nummern und Text aus Bildern auslesen, wie mein Kollege Philipp in seinem Beitrag in der nächsten Woche eindrucksvoll beschreiben wird.

Wenn man sich noch einmal, die verschiedenen Machine-Learning-Arten ansieht und in die Suchmaschinen-Welt überträgt macht es Sinn zu überlegen, wo bereits zumindest Machine-Learning-Ansätze bei Google genutzt werden. Bezogen auf die Suche kann man zumindest Ansätze des ML hier erkennen:

  • Knowledge Graph
  • Hummingbird
  • Rankbrain
  • eventuell Real-Time-Pinguin

Zudem sind schone einige Google Produkte im Einsatz, die sich Deep-Learning-Funktionalitäten bedienen wie z.B. Text in Bild Erkennung, Spracherkennung, Google Translate …

 

Die große Frage ist: Wie  kann man Systeme schaffen, die mit all diesen ganzen Informationen zurecht kommen?

Und wieder lautet die Antwort: Machine-Learning

Das größte Problem beim Handling bei solch einer Masse an Daten ist das Thema Performance und Skalierbarkeit. Dennoch möchte Google hier mit aller Kraft einen Weg in Richtung Machine-Learning gehen will und laut Eric Schmidt ist Machine Learning das bestimmende Thema der Zukunft für Google, wie er vor Studenten der TU Berlin kürzlich darstellte:

Das überragende Thema der kommenden Jahre ist laut Schmidt Machine Learning. Also die Entwicklung von Maschinen und Computern, die selbstständig lernen können. Schmidt: „Wir werden dem Computer in Zukunft keine Fragen mehr stellen müssen, weil er gelernt hat, was wir fragen werden. Es beginnt gerade etwas ganz Großes.“ Schmidt vertraut den Maschinen. Computer seien in vielen Dingen einfach besser und schneller als Menschen.

 

Googles Engagement in Sachen künstlicher Intelligenz & Machine Learning

Dass Google irgendwann ein künstliches Gehirn erschaffen möchte und dass dafür Hummingbird und der Knowldege Graph nur der Anfang sind hat meine Kollegin Svenja vor zwei Jahren mit dem Beitrag Knowledge Graph: Google baut ein Gehirn hier im Blog erläutert. Doch bis dato konnte man es nur erahnen. Durch die weiteren Aktivitäten in den letzten Jahren wird das Bild nun immer klarer.

Laut eigenen Angaben hat Google seit 2014 seine Aktivitäten in Sachen Deep Learning knapp vervierfacht, wie man aus der Folie des weiter unten aufgeführten Vortrag von Jeff Dean entnehmen kann.

Unbenannt13

Quelle: Präsentation Jeff Dean / Google

Googles Engagement in Sachen Artificial Intelligence und Machine-Learning begann im Jahr 2011 mit dem Projektstart von „Google Brain“.  Ziel von Google Brain ist es eigene Neural Networks zu schaffen. Seitdem entwickelt Google mit einer selbst entwickelten Deep-Learning-Software DistBelief die eigenen Produkte in Sachen Machine-Learning weiter. Die zweite Software-Generation namens Tensor Flow steht aber schon in den Startlöchern.

Betrachtet man die Investitionen und Engagements in Sachen Artificial Intelligence im Zeitverlauf wird schnell klar wie wichtig Google diese Themen sind:

Googles Engagement in Sachen Machine Learning und Artificial Intelligence

Googles Engagement in Sachen Machine Learning und Artificial Intelligence

Während der Knowledge-Graph und Hummingbird bereits Machine-Learning-Ansätze beinhalten, lag hier noch eher die  semantische Suchmaschine im Fokus. Spätestens mit den mehrere hundert Millionen schweren Investitionen in diverse Unternehmen aus den Bereichen Artificial Intelligence und Machine-Learning im Jahr 2014 wird klar wohin Google aber wirklich will.

Mit Deep Mind (ca. 365 Mio. Dollar) kaufte Google ein bereits 2011 gegründetes Unternehmen, das sich im Schwerpunkt mit Systemen rund um Künstlicher Intelligenz beschäftigt. U.a. ist DeepMind für die Entwicklung von Google Now verantwortlich. DeepMinds ausgegebenes Unternehmensziel ist das Verstehen von Intelligenz. Zudem beschäftigt sich DeepMind nicht nur mit der Entwicklung von neuronalen Netzen sondern arbeitet an deutlich flexibleren Modellen ähnlich einem Kurzzeitgedächtnis.

Dark Blue Labs hingegen beschäftigt sich im Schwerpunkt mit der Erkennung und Deutung natürlicher Sprache also auch Audio-Formaten.

Vision-Factory hat sich auf Erkennung und Deutung von visuellen Medien wie Bildern oder Videos spezialisiert.

Im Umgang Mit Texten hat Google hingegen als textbasierte Suchmaschine schon länger Erfahrungen. Im Bereich Audio, Video und Bild hat man sich mit den genannten Unternehmen professionelle Unterstützung mit ins Boot geholt.

Zudem investiert Google laut eigener Aussage seit Jahren sehr viel in das Thema Künstliche Intelligenz.  So hat Google hat bis heute Dekaden an Mannstunden investiert in die Entwicklung einer State-of-the-Art Infrastruktur z.B. eigene neuronale Netze investiert. Desweiteren beschäftigt Google tausende CPUs und GPUs um aus dem Billionen von Datensätzen parallel weiter zu lernen.

Im Dezember 2015 gab Google bekannt zusammen mit der NASA an einem Quanten-Computer zu arbeiten.

Google veröffentlicht oft als erste Instanz wissenschaftliche Aufgabenstellungen zu Themen wie Bilderkennung, Spracherkennung. So wurden in den letzten zwei Jahren über 460 Publikationen zum Thema Artificial Intelligence veröffentlicht. Siehe dazu http://research.google.com/pubs/ArtificialIntelligenceandMachineLearning.html.

Und es bleibt nicht nur bei der Theorie. So hat Google laut eigener Aussage ihre Erfahrungen in Sachen Deep Learning seit 2012 in mehr als 47 Produkte implementiert. Hier ein Auszug:

  • Objekt-Erkennung in Bildern
  • Objekt- Katgeorie Erkennung in Videos
  • Spracherkennung
  • Passanten-Erkennung für selbstfahrende Autos
  • OCR: Texterkennung in Bildern
  • Erkennung von Umgangssprache
  •  Maschinen-Übersetzung
  • Online-Werbung

Wer mehr über Googles Aktivitäten in Sachen Artificial Intelligence herausfinden möchte, den empfehle ich einen der zahlreichen Vorträge von Jeff Dean

Dieser Beitrag ist der Auftakt einer kleinen Reihe zum Thema Machine-Learning. Hier die beiden Nachfolgeartikel:

Nachfolgend noch einige Quellen für den tieferen Einstieg in das Thema.

 

Quellen zum Thema Machine Learning und Künstliche Intelligenz

Deep Learning vs Machine Learning vs Pattern Recognition

Machine learning explained in simple words

Introduction to Deep Neural Networks

Wikipedia: Maschinelles Lernen

What is the difference between Artificial Intelligence, Machine Learning, Statistics, and Data Mining

Introduction to Machine Learning

Videos zum Thema Machine Learning und Artificial Intelligence

Opt In Image
Jetzt kostenlos eintragen!
SEO-, Content-Marketing-, Online-Marketing-Thought-Leadership & mehr bequem per Mail

Folgendes sind die Vorteile:

  • Online-Marketing-Thougt-Leadership von Experten aus dem Hause Aufgesang
  • Keine aufdringlichen Vertriebs-Mails
  • Maximal eine Mail pro Monat

Wenn Du zeitnaher über unsere Blogbeiträge informiert werden willst und darüber hinaus täglich mit den interessantesten News aus der internationalen Online-Marketing-Welt versorgt werden willst folge uns bei Facebook, Twitter oder Google+.

 

Leave a Reply

Aufgesang Social Media:

Unsere Agentur-Kunden:

Kundenstimmen:

Sehr gute Agentur für Online-Marketing!
Wir sind sehr zufrieden mit der Arbeit von Aufgesang. Besonders schätzen wir, dass Aufgesang verschiedene Online-Marketing-Disziplinen wie SEO, SEA und PR kombiniert anbietet.
Ali Jason Bazooband, Mitglied Geschäftsführung/Marketing/E-Commerce, Produktdesign/ -entwicklung, Achilles Präsentationsprodukte GmbH

Kostenlose Erstberatung:


Aufgesang Inbound Marketing GmbH
Braunstraße 6A / 2.Etage
30169
Hannover
info[at]aufgesang.de

Jetzt anrufen!
0511-92399944

Online Marketing Agentur Kontakt