Du interessierst Dich für BM25. Hier findest Du alles was du wissen musst.

Was ist BM25?

BM25 ist eine beliebte Ranking-Funktion, die in Information-Retrieval-Systemen verwendet wird, um die Relevanz von Dokumenten für eine bestimmte Suchanfrage abzuschätzen. Sie gehört zu einer Familie von Bewertungsfunktionen, die als probabilistische Information-Retrieval-Modelle bekannt sind und auf dem probabilistischen Relevanzrahmen beruhen.

Wie BM25 funktioniert

BM25 berechnet eine Punktzahl für jedes Dokument im Verhältnis zu einer bestimmten Suchanfrage, wobei höhere Punktzahlen eine größere Relevanz des Dokuments für die Suchanfrage anzeigen. Die Bewertung basiert auf den Suchbegriffen, die in jedem Dokument vorkommen, wobei die Häufigkeit jedes Begriffs im Dokument und in allen Dokumenten der Sammlung berücksichtigt wird. Hier eine Aufschlüsselung der Hauptkomponenten der BM25-Formel:

  1. Begriffshäufigkeit (TF): Sie gibt an, wie oft ein Suchbegriff in einem Dokument vorkommt. Je häufiger der Begriff vorkommt, desto höher ist in der Regel die Relevanz.
  2. Umgekehrte Dokumenthäufigkeit (IDF): Damit wird die Informativität eines Begriffs gemessen. Wenn ein Begriff in vielen Dokumenten vorkommt, ist es weniger wahrscheinlich, dass er für die Bestimmung der Relevanz von Bedeutung ist. Die IDF-Komponente von BM25 bestraft Begriffe, die in den Dokumenten zu häufig vorkommen.
  3. Normalisierung der Dokumentlänge: Dieser Aspekt von BM25 passt sich an die Länge des Dokuments an. Längere Dokumente können allein aufgrund ihrer Länge eine höhere Termhäufigkeit aufweisen. BM25 normalisiert dies und verhindert, dass längere Dokumente von Natur aus eine höhere Punktzahl erhalten, sofern sie nicht relevanter sind.

Wir wird der BM25 Score berechnet?

Die Formel für BM25 lautet wie folgt:

Score=∑𝑖=1𝑛IDF(𝑞𝑖)⋅𝑓(𝑞𝑖,𝐷)⋅(𝑘1+1)𝑓(𝑞𝑖,𝐷)+𝑘1⋅(1-𝑏+𝑏⋅∣𝐷∣avgdl)Score=∑i=1nIDF(qi)⋅f(qi,D)+k1⋅(1-b+b⋅avgdl∣D∣)f(qi,D)⋅(k1+1)

wobei:

  • 𝑞𝑖qi ein Suchbegriff ist,
  • 𝑓(𝑞𝑖,𝐷)f(qi,D) die Termhäufigkeit von 𝑞𝑖qi in dem Dokument 𝐷D ist,
  • ∣𝐷∣∣D∣ ist die Länge des Dokuments,
  • avgdlavgdl ist die durchschnittliche Dokumentlänge in der Textsammlung,
  • 𝑘1k1 und 𝑏b sind freie Parameter, die in der Regel empirisch gewählt werden (übliche Werte sind 𝑘1=2.0k1=2.0 und 𝑏=0.75b=0.75),
  • IDF(𝑞𝑖)IDF(qi) ist die IDF für 𝑞𝑖qi.

Anwendungen und Verwendung von BM25

BM25 wird aufgrund seiner Effektivität und Effizienz häufig in Suchmaschinen und verschiedenen Anwendungen zur Informationsgewinnung eingesetzt. Es wird besonders für seine Ausgewogenheit zwischen Einfachheit und Leistung geschätzt, was es zu einer grundlegenden Komponente in vielen modernen Suchsystemen macht, einschließlich solcher, die komplexere maschinelle Lernmodelle verwenden.

Zusammenfassend lässt sich sagen, dass BM25 eine robuste Methode zur Bewertung von Dokumenten auf der Grundlage ihrer Relevanz für eine Suchanfrage ist, die die Häufigkeit von Begriffen, die Häufigkeit von Dokumenten und die Länge von Dokumenten effizient ausgleicht.

Unterschied zwischen BM25 und TF-IDF

Der Unterschied zwischen BM25 (Best Matching 25) und TF-IDF (Term Frequency-Inverse Document Frequency) liegt hauptsächlich in der Art und Weise, wie sie die Relevanz von Dokumenten für eine Suchanfrage bewerten. Hier sind die Hauptunterschiede:

1. Berechnung und Gewichtung der Begriffe

TF-IDF:

Termfrequenz (TF): Misst, wie oft ein Begriff in einem Dokument vorkommt. Je häufiger ein Begriff vorkommt, desto höher ist seine Gewichtung.
Umgekehrte Dokumenthäufigkeit (IDF): Misst, wie selten ein Begriff in der gesamten Dokumentensammlung ist. Seltene Begriffe haben eine höhere Gewichtung, da sie als relevanter angesehen werden.

Die TF-IDF-Gewichtung wird wie folgt berechnet:

BM25:

  • BM25 ist eine Erweiterung von TF-IDF, die zusätzliche Parameter einführt, um die Gewichtung flexibler und anpassungsfähiger zu machen.
  • BM25 verwendet eine gesättigte Häufigkeitsfunktion für die Termfrequenz (TF), die berücksichtigt, dass die Relevanz eines Terms nicht linear mit seiner Häufigkeit zunimmt.
  • BM25 berücksichtigt auch die Länge der Dokumente und normalisiert sie, um zu vermeiden, dass längere Dokumente benachteiligt werden.

Die BM25-Gewichtung wird wie folgt berechnet:

2. Anpassungsfähigkeit und Relevanz-Scoring

TF-IDF:

  • Relativ einfach und überschaubar.
  • Geeignet für kleinere oder weniger komplexe Dokumentensammlungen.
  • Die Gewichtung basiert ausschließlich auf der Termhäufigkeit und der inversen Dokumenthäufigkeit.

BM25:

  • Flexibler und anpassungsfähiger durch die Verwendung der Hyperparameter k1k_1k1 und bbb, die die Sättigung der Termhäufigkeit und die Normalisierung der Dokumentenlänge steuern.
  • Liefert im Allgemeinen bessere Ergebnisse für größere und komplexere Dokumentensammlungen, insbesondere im Information Retrieval.
  • Berücksichtigt nicht nur die Häufigkeit eines Begriffs, sondern auch die Dokumentlänge und die Begriffssättigung.

Zusammenfassung

Während TF-IDF eine einfache und intuitive Methode zur Gewichtung von Begriffen auf der Grundlage ihrer Häufigkeit und Seltenheit ist, bietet BM25 eine fortschrittliche und fein abgestimmte Methode, die zusätzliche Faktoren wie die Dokumentlänge und die Häufigkeitssättigung berücksichtigt. Infolgedessen ist BM25 für komplexere Anwendungen im Information Retrieval oft besser geeignet.

Zu Olaf Kopp

Olaf Kopp ist Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung in Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO & Content bei der Online Marketing Agentur Aufgesang GmbH. Olaf Kopp ist international anerkannter Branchenexperte für semantische SEO, E-E-A-T, KI- und Suchmaschinen-Technologie, Content-Marketing und Customer Journey Management. Er ist Gründer der weltweit ersten Datenbank für Patente und Research Paper, die jeder SEO kennen sollte. Als Autor schreibt er für nationale und internationale Fachmagazine wie Searchengineland, t3n, Website Boosting, Hubspot Blog, Sistrix Blog, Oncrawl Blog ... . 2022 war er Top Contributor bei Search Engine Land. Als Speaker stand er auf Bühnen der SMX, SEA/SEO World, CMCx, OMT, Digital Bash oder Campixx. Er ist ist Host der Podcasts OM Cafe und Digital Authorities. Er ist ist Autor des Buches "Content-Marketing entlang der Customer Journey", Co-Autor des Standardwerks "Der Online Marketing Manager" und Mitorganisator des SEAcamp.
herausgegeben von:
Datum: 17. Juni 2024

Blog-Artikel zu diesem Thema