Bigramm
Was ist ein Bigramm?
Ein Bigramm ist eine Kombination aus zwei direkt aufeinanderfolgenden Elementen in einem Text, meist Buchstaben oder Wörtern.
Es handelt sich um ein N-Gramm mit der Anzahl N=2. Diese Analyse-Methode wird in der Computerlinguistik, Kryptografie und Spracherkennung verwendet.
Wie funktioniert die Bigramm-Zerlegung?
Die Bigramm-Zerlegung erfolgt durch das sequenzielle Aufteilen eines Textes in Zweier-Gruppen.
Bei dem Wort „HALLO“ entstehen beispielsweise die Bigramme: HA, AL, LL, LO. In der erweiterten Analyse werden auch Wortgrenzen berücksichtigt, dargestellt durch Unterstriche: H, HA, AL, LL, LO, O.
Welche Anwendungsgebiete haben Bigramme?
Bigramme finden primär Anwendung in der Spracherkennung, Kryptanalyse und statistischen Textanalyse.
In Spracherkennungssystemen helfen sie bei der Unterscheidung von Homophonen durch Kontextanalyse.
Die Kryptografie nutzt Bigramm-Häufigkeiten zum Brechen von Verschlüsselungen. In der Computerlinguistik dienen sie zur Wahrscheinlichkeitsberechnung von Buchstaben- oder Wortfolgen.
Wie häufig kommen deutsche Bigramme vor?
Die häufigsten deutschen Bigramme sind ER, EN, CH und TE mit Vorkommenswahrscheinlichkeiten zwischen 2-4 Prozent.
Im Englischen dominieren TH (3,56%), HE (3,07%) und IN (2,43%) die Häufigkeitsverteilung. Diese statistischen Daten basieren auf Analysen großer Textkorpora mit mehreren Millionen Zeichen.
Welche Rolle spielen Bigramme in der maschinellen Übersetzung?
Bigramme bilden die Grundlage für zahlreiche Ansätze der maschinellen Übersetzung und Sprachmodellierung.
Sie ermöglichen die Berechnung bedingter Wahrscheinlichkeiten für nachfolgende Zeichen oder Wörter. Moderne Sprachmodelle nutzen diese Daten zur Vorhersage und Generierung von natürlichsprachlichen Texten.
Was ist der Unterschied zwischen Bigramm und Digramm?
Bigramm und Digramm bezeichnen identische Konzepte – eine Folge von zwei aufeinanderfolgenden Elementen.
Wie werden Bigramme in der Kryptografie eingesetzt?
Bigramme ermöglichen Häufigkeitsanalysen zur Entschlüsselung von Substitutions-Chiffren durch statistische Muster.
Können Bigramme Wortgrenzen überschreiten?
Ja, Bigramme können Wortgrenzen überschreiten und werden oft durch Unterstriche zur Kennzeichnung von Wortanfängen und -enden ergänzt.
Wie viele verschiedene Bigramme gibt es im deutschen Alphabet?
Theoretisch existieren 26 × 26 = 676 verschiedene Buchstaben-Bigramme im deutschen Alphabet.
Welche Software analysiert Bigramme automatisch?
Google Books Ngram Viewer, verschiedene Python-Bibliotheken und linguistische Analyseprogramme bieten automatische Bigramm-Auswertungen.
Verwandte Begriffe
- N-Gramm
- Trigramm
- Monogramm
- Korpuslinguistik
- Spracherkennung
- Kryptanalyse
- Häufigkeitsanalyse
- Tokenisierung
- Computerlinguistik
- Sprachmodell
A bigram or digram is a sequence of two adjacent elements from a string of tokens, which are typically letters, syllables, or words. A bigram is an n-gram for n=2.
The frequency distribution of every bigram in a string is commonly used for simple statistical analysis of text in many applications, including in computational linguistics, cryptography, and speech recognition.
Gappy bigrams or skipping bigrams are word pairs which allow gaps (perhaps avoiding connecting words, or allowing some simulation of dependencies, as in a dependency grammar).