Unsere Methodik
Sie haben das Recht zu wissen, woher die Zahlen und Definitionen kommen, die Sie auf WortWize sehen. Diese Seite legt in klarem Deutsch unsere Quellen, unsere Verarbeitung und die Grenzen unserer Daten offen. Nichts versteckt sich hinter der Phrase „proprietäre Daten“.
Primäre Frequenzquelle
Unsere deutsche Wortschatzdatenbank ist auf Frequenzlisten aufgebaut, die aus öffentlich zugänglichen deutschen Sprachkorpora und etablierten lexikografischen Referenzen abgeleitet sind. Für jedes Wort extrahieren wir die kanonische Form, die Wortart (Substantiv, Verb, Adjektiv, Adverb usw.), die phonetische Transkription, sofern verfügbar, und die Verwendungshäufigkeit im Referenzkorpus.
Verwendete lexikografische Referenzen
Für Definitionen, Etymologien und Beispiele stützen wir uns auf die großen deutschen Referenzwerke. Dies sind auch die Quellen, die wir Ihnen zur Überprüfung jedes Eintrags empfehlen:
- Wiktionary (Deutsch) — ein gemeinschaftlich gepflegtes mehrsprachiges Wörterbuch mit detaillierten Etymologien, unter CC-BY-SA-Lizenz.
- Duden — das maßgebliche deutsche Wörterbuch für Rechtschreibung, Grammatik und Bedeutung. Seit 1880 die wichtigste Referenz für das Standarddeutsch.
- DWDS (Digitales Wörterbuch der deutschen Sprache) — ein digitales Wörterbuch und Korpus, das von der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) gepflegt wird. Akademisch fundiert, mit historischen Belegen.
- Leipzig Corpora Collection — ein der größten frei zugänglichen Sammlungen von Sprachkorpora, gepflegt von der Universität Leipzig. Quelle für Frequenzdaten und Kollokationen.
- PONS (DE-EN) — nützlich für englischsprachige Lernende, die deutsche Wörter mit ihren englischen Entsprechungen abgleichen wollen.
Klassifizierung nach Niveau (A1 bis C2)
Jedes Wort erhält ein Lernniveau, das auf einer Kombination aus seiner Korpusfrequenz und seiner Zugehörigkeit zu weit verbreiteten Wortschatzlisten basiert, insbesondere:
- dem Gemeinsamen Europäischen Referenzrahmen (GER) A1 bis C2, der den DaF-Unterricht (Deutsch als Fremdsprache) strukturiert,
- den offiziellen Wortschatzlisten des Goethe-Zertifikats A1 bis C2, herausgegeben vom Goethe-Institut, dem weltweit größten Anbieter für DaF,
- den Referenzwerken für TestDaF (TDN 3 bis TDN 5) und die DSH (Deutsche Sprachprüfung für den Hochschulzugang), die für ein Studium an deutschen Universitäten verlangt werden.
Wörter, die im Alltag häufig sind, erhalten das Niveau „Grundwortschatz“ (A1-A2); jene, die hauptsächlich in Presse und beruflicher Kommunikation vorkommen, das Niveau „Mittelstufe“ (B1-B2); jene aus Qualitätszeitungen und zeitgenössischer Literatur das Niveau „Oberstufe“ (C1); und jene aus dem akademischen oder juristischen Register das Niveau „akademisch“ (C2). Die Zuordnung ist regelbasiert und vollständig reproduzierbar.
Bauprozess und Aktualisierung
- Einlesen— die Quell-Frequenzlisten werden in eine lokale SQLite-Datenbank importiert.
- Bereinigung— nicht-deutsche Inhalte, Kodierungsartefakte und leere Felder werden entfernt.
- Ableitung— Niveaus, Frequenzperzentile, Synonym/Antonym-Beziehungen und Indizes nach Buchstabe und Länge werden deterministisch aus den bereinigten Datensätzen berechnet.
- Verknüpfung— Übersetzungen einer Untergruppe von Wörtern werden mit unseren Schwesterwörterbüchern (VocabWize für Englisch, VocabLibre für Französisch, DicionarioWize für Portugiesisch, KalimaWize für Arabisch, KotobaPeek für Japanisch) verknüpft, um direkte sprachübergreifende Verweise aufzubauen.
- Veröffentlichung— die Datenbank wird zur Bauzeit mit der Website verpackt, sodass jede Seite aus demselben überprüften Snapshot generiert wird.
Aktualisierungshäufigkeit
Lexikografische deutsche Daten ändern sich langsam; das Lexikon wandelt sich nicht stündlich. Wir aktualisieren unseren Datensatz monatlich oder sofort, wenn eine Quelle eine wesentliche Korrektur veröffentlicht. Jede Wortseite trägt eine menschenlesbare Kennzeichnung „letzte Aktualisierung“, damit Sie immer die Herkunft des Inhalts kennen.
Querverweise
Wir bitten Sie nicht, uns blind zu vertrauen. Bei jedem Eintrag, bei dem Sie unsicher sind, empfehlen wir Ihnen, ihn mit diesen autoritativen öffentlichen Referenzen zu vergleichen:
- Duden online — die Standardreferenz für die deutsche Rechtschreibung und den Wortschatz.
- DWDS — akademisch fundiert, mit historischer Tiefe.
- Leipzig Corpora — nützlich für Frequenz und Kollokationen.
- Wiktionary — gemeinschaftliches Wörterbuch mit detaillierten Etymologien.
Grenzen, die Sie kennen sollten
- Regionale Varianten. Unsere Definitionen neigen zum allgemeinen zeitgenössischen Standarddeutsch und unterscheiden nicht immer zwischen bundesdeutschem, österreichischem und Schweizer Hochdeutsch (DACH-Varianten). Für regionsspezifische Nuancen konsultieren Sie ein spezialisiertes Wörterbuch.
- Neologismen. Sehr neue Wörter (in den letzten 12 Monaten geprägt) können fehlen oder nur spärliche Daten haben. Diese Einträge werden im nächsten Aktualisierungszyklus am ehesten erneuert.
- Eigennamen und Fachjargon. Spezialisierter technischer, medizinischer oder juristischer Wortschatz ist repräsentiert, aber nicht unser Schwerpunkt. Für Fachgebiete verwenden Sie eine spezialisierte Referenz.
- Frequenz ist global. Ein Wort kann in einem Register (z. B. Rechtsdeutsch) selten und in einem anderen (Alltagssprache) häufig sein. Unsere Perzentile beschreiben die Gesamtnutzung, nicht die registerspezifische Verwendung.
Korrekturen und Feedback
Wenn Sie eine fehlerhafte Definition, eine fehlende Bedeutung oder ein Niveau finden, das nicht Ihrer Erfahrung entspricht, möchten wir das wissen. Bitte kontaktieren Sie uns mit dem Wort und Ihrer vorgeschlagenen Änderung. Wir verfolgen jede Korrekturanfrage.
Diese Methodikseite wurde zuletzt im März 2026 überprüft. Wesentliche Änderungen an unserem Datenaufbau werden hier widergespiegelt, bevor sie die Produktionsseiten erreichen.