Zum Hauptinhalt springen

N-Gramm

« Zurück zum Glossary Index

Was ist ein N-Gramm?

Ein N-Gramm ist eine Folge aus n aufeinanderfolgenden Einheiten wie Wörtern oder Zeichen in einem Text.Die Zahl n gibt an, wie viele Elemente zusammen betrachtet werden; typische Beispiele sind Unigramme (ein Element), Bigramme (zwei Elemente) und Trigramme (drei Elemente). N-Gramme werden in der Computerlinguistik, Textanalyse und beim maschinellen Lernen eingesetzt, um Muster, Häufigkeiten und Zusammenhänge in Sprache zu erkennen.

Wie funktioniert die Zerlegung in N-Gramme?

Bei der Zerlegung wird ein Text in überlappende Gruppen von n Einheiten aufgeteilt.So entstehen Sequenzen, die für die Analyse genutzt werden. Zum Beispiel wird der Satz „Ich liebe Kaffee“ in folgende Bigramme zerlegt: „Ich liebe“, „liebe Kaffee“.

Welche Typen von N-Grammen gibt es?

Die wichtigsten Typen sind:

  • Unigramm (1-Gramm): Einzelne Wörter oder Zeichen
  • Bigramm (2-Gramm): Paare aufeinanderfolgender Wörter oder Zeichen
  • Trigramm (3-Gramm): Dreiergruppen aufeinanderfolgender Wörter oder Zeichen
  • N-Gramme höherer Ordnung: Vier oder mehr Elemente in einer Gruppe

Wofür werden N-Gramme verwendet?

N-Gramme dienen der Mustererkennung, Sprachmodellierung, Textklassifikation und Stimmungsanalyse.Sie sind ein zentrales Werkzeug in der natürlichen Sprachverarbeitung, etwa für Autovervollständigung, maschinelle Übersetzung oder SEO-Analysen.

Wie unterscheiden sich N-Gramme von anderen Textmerkmalen?

N-Gramme erfassen explizit die Reihenfolge und Nachbarschaft von Elementen, anders als einfache Worthäufigkeiten.Dadurch ermöglichen sie die Analyse von typischen Formulierungen, Phrasen und Kontexten in Texten.

FAQ

Was ist ein N-Gramm?

Ein N-Gramm ist eine Sequenz aus n direkt aufeinanderfolgenden Einheiten wie Wörtern oder Zeichen.

Was ist der Unterschied zwischen Unigramm, Bigramm und Trigramm?

Unigramme bestehen aus einem, Bigramme aus zwei und Trigramme aus drei aufeinanderfolgenden Elementen.

Wofür werden N-Gramme in der Praxis eingesetzt?

N-Gramme werden zur Sprachmodellierung, Mustererkennung, Textklassifikation und Suchmaschinenoptimierung genutzt.

Können N-Gramme auch Zeichen statt Wörter umfassen?

Ja, N-Gramme können sowohl aus Wörtern als auch aus Zeichen, Silben oder anderen Einheiten bestehen.

Was ist ein typisches Beispiel für ein Bigramm?

Im Satz „Künstliche Intelligenz hilft“ sind „Künstliche Intelligenz“ und „Intelligenz hilft“ Beispiele für Bigramme.

Verwandte Begriffe

  1. Unigramm
  2. Bigramm
  3. Trigramm
  4. Sprachmodell
  5. Tokenisierung
  6. Termfrequenz
  7. Textklassifikation
  8. NLP (Natural Language Processing)
  9. Korpuslinguistik
  10. Google Books Ngram Viewer
N-Gramm (Wikipedia)

Ein N-Gramm, manchmal auch Q-Gramm genannt, ist das Ergebnis der Zerlegung eines Textes in Fragmente.

Der Text wird dabei zerlegt, und jeweils  aufeinanderfolgende Fragmente werden als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und Ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Korpuslinguistik, speziell auch in der Computerlinguistik, Quantitativen Linguistik und Computerforensik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt und in Datensätzen zusammengefasst.

Drei Datensätze von N-Grammen aus Google Books mit den Stichtagen Juli 2009, Juli 2012 und Februar 2020 wurden mit einer Weboberfläche und grafischer Auswertung in Form von Diagrammen versehen und unter dem Namen Google Books Ngram Viewer ins Netz gestellt.

« Zurück zum Glossary Index

Ralf Dodler

Ralf Dodler ist Unternehmer, Autor und Inhaber von Dodler Consulting, einem Online-Marketing-Unternehmen mit Sitz in Schwalbach (Saar), das sich auf SEO und Content-Marketing spezialisiert hat.