====== std.fasttext ====== FastText-Wortvektor-Engine als native Lyx-Implementierung (angelehnt an Facebook Research, 2016). Trainiert Skip-gram- oder CBOW-Modelle (Stochastic Gradient Descent) auf einem Wort-Korpus und erzeugt dichte Einbettungsvektoren (Standard: 100 Dimensionen). Findet die k nächsten Nachbarn (''FastTextFindNearest''), löst Analogien (»König – Mann + Frau = ?«, ''FastTextAnalogies''), klassifiziert Textvektoren (''FastTextClassify'') und speichert/lädt Modelle als Binärdatei. Einsatzbereiche: Textklassifikation, semantische Ähnlichkeitssuche, Sprachmodelle, Empfehlungssysteme, NLP-Preprocessing für ''std.ml''. **Autor:** Andreas Röne\\ **Copyright:** 2024-2025 Andreas Röne ---- ===== Konstanten ===== ^ Name ^ Typ ^ Wert ^ Sichtbarkeit ^ | ''PROT_RW'' | ''int64'' | ''3'' | priv | | ''MAP_ANON'' | ''int64'' | ''34'' | priv | | ''FD_NONE'' | ''int64'' | ''-1'' | priv | | ''DEFAULT_DIM'' | ''int64'' | ''100'' | pub | | ''DEFAULT_WINDOW'' | ''int64'' | ''5'' | pub | | ''DEFAULT_EPOCHS'' | ''int64'' | ''50'' | pub | | ''DEFAULT_LR'' | ''f64'' | ''0.025'' | pub | | ''MIN_COUNT'' | ''int64'' | ''1'' | pub | | ''NEG_SAMPLES'' | ''int64'' | ''5'' | pub | ---- ===== Funktionen ===== ^ Signatur ^ Sichtbarkeit ^ Beschreibung ^ | ''FastTextInitVocab(corpus_size: int64): void'' | pub | Initialisiert den Vokabular-Speicher für Corpus | | ''FastTextGetEmbeddingAt(word_idx: int64): int64'' | pub | Gibt Einbettungsvektor für Wortindex zurück | | ''FastTextComputeContextVector('' | pub | Berechnet Kontextvektor aus Nachbarwörtern | | ''FastTextTrainSkipgramSGD('' | pub | Trainiert Skip-gram-Modell via SGD | | ''FastTextTrainCBOWSGD('' | pub | Trainiert CBOW-Modell via SGD | | ''FastTextSampleNegative(positive_word: int64): int64'' | pub | Samples negatives Wort für Negative Sampling | | ''FastTextDotProduct(vec1: int64, vec2: int64): f64'' | pub | Berechnet Skalarprodukt zweier Vektoren | | ''FastTextVectorNorm(vec: int64): f64'' | pub | Berechnet euklidische Norm eines Vektors | | ''FastTextNormalize(vec: int64): void'' | pub | Normalisiert Vektor auf Einheitslänge | | ''FastTextFindNearest(query_vec: int64, k: int64): int64'' | pub | Findet k nächste Nachbarn im Vektorraum | | ''FastTextAnalogies(a: int64, b: int64, c: int64): int64'' | pub | Löst Wortanalogie a–b+c im Vektorraum | | ''FastTextClassify(text_vec: int64): int64'' | pub | Klassifiziert Textvektor in Label-Kategorie | | ''FastTextClassifyProb(text_vec: int64, label: int64): f64'' | pub | Gibt Klassifikationswahrscheinlichkeit für Label zurück | | ''FastTextPredictWord(context_vec: int64): int64'' | pub | Sagt wahrscheinlichstes Wort für Kontext voraus | | ''FastTextSaveModel(path: pchar): int64'' | pub | Speichert trainiertes Modell als Binärdatei | | ''FastTextLoad(path: pchar): int64'' | pub | Lädt Modell aus Binärdatei | | ''FastTextFree(): void'' | pub | Gibt gesamten Modell-Speicher frei | | ''FastTextSetDimension(d: int64): void'' | pub | Setzt Einbettungsdimension vor dem Training | | ''FastTextSetLearningRate(lr: f64): void'' | pub | Setzt Lernrate für SGD-Training | | ''FastTextSetWindow(window: int64): void'' | pub | Setzt Kontextfenstergröße für Training | | ''FastTextGetDimension(): int64'' | pub | Gibt aktuelle Einbettungsdimension zurück | | ''FastTextGetVocabSize(): int64'' | pub | Gibt Anzahl der Vokabular-Einträge zurück |