std.fasttext
FastText-Wortvektor-Engine als native Lyx-Implementierung (angelehnt an Facebook Research, 2016). Trainiert Skip-gram- oder CBOW-Modelle (Stochastic Gradient Descent) auf einem Wort-Korpus und erzeugt dichte Einbettungsvektoren (Standard: 100 Dimensionen). Findet die k nächsten Nachbarn (FastTextFindNearest), löst Analogien (»König – Mann + Frau = ?«, FastTextAnalogies), klassifiziert Textvektoren (FastTextClassify) und speichert/lädt Modelle als Binärdatei.
Einsatzbereiche: Textklassifikation, semantische Ähnlichkeitssuche, Sprachmodelle, Empfehlungssysteme, NLP-Preprocessing für std.ml.
Autor: Andreas Röne
Copyright: 2024-2025 Andreas Röne
Konstanten
| Name | Typ | Wert | Sichtbarkeit |
|---|---|---|---|
PROT_RW | int64 | 3 | priv |
MAP_ANON | int64 | 34 | priv |
FD_NONE | int64 | -1 | priv |
DEFAULT_DIM | int64 | 100 | pub |
DEFAULT_WINDOW | int64 | 5 | pub |
DEFAULT_EPOCHS | int64 | 50 | pub |
DEFAULT_LR | f64 | 0.025 | pub |
MIN_COUNT | int64 | 1 | pub |
NEG_SAMPLES | int64 | 5 | pub |
Funktionen
| Signatur | Sichtbarkeit | Beschreibung |
|---|---|---|
FastTextInitVocab(corpus_size: int64): void | pub | Initialisiert den Vokabular-Speicher für Corpus |
FastTextGetEmbeddingAt(word_idx: int64): int64 | pub | Gibt Einbettungsvektor für Wortindex zurück |
FastTextComputeContextVector( | pub | Berechnet Kontextvektor aus Nachbarwörtern |
FastTextTrainSkipgramSGD( | pub | Trainiert Skip-gram-Modell via SGD |
FastTextTrainCBOWSGD( | pub | Trainiert CBOW-Modell via SGD |
FastTextSampleNegative(positive_word: int64): int64 | pub | Samples negatives Wort für Negative Sampling |
FastTextDotProduct(vec1: int64, vec2: int64): f64 | pub | Berechnet Skalarprodukt zweier Vektoren |
FastTextVectorNorm(vec: int64): f64 | pub | Berechnet euklidische Norm eines Vektors |
FastTextNormalize(vec: int64): void | pub | Normalisiert Vektor auf Einheitslänge |
FastTextFindNearest(query_vec: int64, k: int64): int64 | pub | Findet k nächste Nachbarn im Vektorraum |
FastTextAnalogies(a: int64, b: int64, c: int64): int64 | pub | Löst Wortanalogie a–b+c im Vektorraum |
FastTextClassify(text_vec: int64): int64 | pub | Klassifiziert Textvektor in Label-Kategorie |
FastTextClassifyProb(text_vec: int64, label: int64): f64 | pub | Gibt Klassifikationswahrscheinlichkeit für Label zurück |
FastTextPredictWord(context_vec: int64): int64 | pub | Sagt wahrscheinlichstes Wort für Kontext voraus |
FastTextSaveModel(path: pchar): int64 | pub | Speichert trainiertes Modell als Binärdatei |
FastTextLoad(path: pchar): int64 | pub | Lädt Modell aus Binärdatei |
FastTextFree(): void | pub | Gibt gesamten Modell-Speicher frei |
FastTextSetDimension(d: int64): void | pub | Setzt Einbettungsdimension vor dem Training |
FastTextSetLearningRate(lr: f64): void | pub | Setzt Lernrate für SGD-Training |
FastTextSetWindow(window: int64): void | pub | Setzt Kontextfenstergröße für Training |
FastTextGetDimension(): int64 | pub | Gibt aktuelle Einbettungsdimension zurück |
FastTextGetVocabSize(): int64 | pub | Gibt Anzahl der Vokabular-Einträge zurück |
