std.fasttext

FastText-Wortvektor-Engine als native Lyx-Implementierung (angelehnt an Facebook Research, 2016). Trainiert Skip-gram- oder CBOW-Modelle (Stochastic Gradient Descent) auf einem Wort-Korpus und erzeugt dichte Einbettungsvektoren (Standard: 100 Dimensionen). Findet die k nächsten Nachbarn (FastTextFindNearest), löst Analogien (»König – Mann + Frau = ?«, FastTextAnalogies), klassifiziert Textvektoren (FastTextClassify) und speichert/lädt Modelle als Binärdatei.

Einsatzbereiche: Textklassifikation, semantische Ähnlichkeitssuche, Sprachmodelle, Empfehlungssysteme, NLP-Preprocessing für std.ml.

Autor: Andreas Röne
Copyright: 2024-2025 Andreas Röne


Konstanten

Name Typ Wert Sichtbarkeit
PROT_RW int64 3 priv
MAP_ANON int64 34 priv
FD_NONE int64 -1 priv
DEFAULT_DIM int64 100 pub
DEFAULT_WINDOW int64 5 pub
DEFAULT_EPOCHS int64 50 pub
DEFAULT_LR f64 0.025 pub
MIN_COUNT int64 1 pub
NEG_SAMPLES int64 5 pub

Funktionen

Signatur Sichtbarkeit Beschreibung
FastTextInitVocab(corpus_size: int64): void pub Initialisiert den Vokabular-Speicher für Corpus
FastTextGetEmbeddingAt(word_idx: int64): int64 pub Gibt Einbettungsvektor für Wortindex zurück
FastTextComputeContextVector( pub Berechnet Kontextvektor aus Nachbarwörtern
FastTextTrainSkipgramSGD( pub Trainiert Skip-gram-Modell via SGD
FastTextTrainCBOWSGD( pub Trainiert CBOW-Modell via SGD
FastTextSampleNegative(positive_word: int64): int64 pub Samples negatives Wort für Negative Sampling
FastTextDotProduct(vec1: int64, vec2: int64): f64 pub Berechnet Skalarprodukt zweier Vektoren
FastTextVectorNorm(vec: int64): f64 pub Berechnet euklidische Norm eines Vektors
FastTextNormalize(vec: int64): void pub Normalisiert Vektor auf Einheitslänge
FastTextFindNearest(query_vec: int64, k: int64): int64 pub Findet k nächste Nachbarn im Vektorraum
FastTextAnalogies(a: int64, b: int64, c: int64): int64 pub Löst Wortanalogie a–b+c im Vektorraum
FastTextClassify(text_vec: int64): int64 pub Klassifiziert Textvektor in Label-Kategorie
FastTextClassifyProb(text_vec: int64, label: int64): f64 pub Gibt Klassifikationswahrscheinlichkeit für Label zurück
FastTextPredictWord(context_vec: int64): int64 pub Sagt wahrscheinlichstes Wort für Kontext voraus
FastTextSaveModel(path: pchar): int64 pub Speichert trainiertes Modell als Binärdatei
FastTextLoad(path: pchar): int64 pub Lädt Modell aus Binärdatei
FastTextFree(): void pub Gibt gesamten Modell-Speicher frei
FastTextSetDimension(d: int64): void pub Setzt Einbettungsdimension vor dem Training
FastTextSetLearningRate(lr: f64): void pub Setzt Lernrate für SGD-Training
FastTextSetWindow(window: int64): void pub Setzt Kontextfenstergröße für Training
FastTextGetDimension(): int64 pub Gibt aktuelle Einbettungsdimension zurück
FastTextGetVocabSize(): int64 pub Gibt Anzahl der Vokabular-Einträge zurück