Was ist hybrides Retrieval (Dense + Sparse) mit RRF?

Hybrides Retrieval kombiniert dichte Vektor-Ähnlichkeit (semantische Bedeutung) mit lexikalischer Volltextsuche (BM25/FTS) und führt beide Ranglisten per Reciprocal Rank Fusion (RRF) zusammen. So lassen sich sowohl Synonyme als auch exakte Begriffe, Codes und Eigennamen besser abdecken.

Wozu dient MMR (Maximal Marginal Relevance) im RAG?

MMR balanciert Relevanz gegen Redundanz über den Parameter Lambda (λ). Bei λ=1 zählt nur Relevanz, bei λ=0 nur Diversität. So vermeidet die Pipeline, dass mehrere fast identische Chunks das Kontextfenster füllen.

Wie lässt sich RAG mit einer Graph-Datenbank kombinieren?

Graph-RAG nutzt einen Wissensgraphen, um Entitäten und ihre Beziehungen zu modellieren. Vektorsuche findet relevante Knoten, die Graph-Traversierung liefert verbundene Fakten und Mehrschritt-Zusammenhänge (Multi-Hop), die reine Ähnlichkeitssuche nicht abbildet.

Advanced & Production

Advanced RAG-Architektur

Von der einfachen Vektorsuche zu robusteren Architekturmustern: Hybrid Retrieval, Reranking, MMR-Diversität, Graph-RAG und Guardrails. Die Bausteine sind eine Zielarchitektur – welche davon sinnvoll sind, muss für Daten, Risiken und Fragen evaluiert werden.

Neun mögliche Bausteine einer produktionsnahen RAG-Pipeline

Nicht jede Anwendung benötigt jede Stufe. Zusätzliche Komplexität muss einen messbaren Qualitäts- oder Sicherheitsgewinn liefern.

Dokumenten-Verarbeitung & Chunking (Ingestion)

HTML-Boilerplate entfernen, strukturbewusstes Chunking (300–600 Tokens, 10–20 % Overlap, an Überschriften orientiert), Deduplizierung per content_hash und Anreicherung mit Metadaten (URL, Titel, Abschnitt, Importdatum).

Hybride Retrieval-Engine (Dense, Sparse & RRF)

Parallele dichte Vektorsuche (pgvector / Embeddings) und lexikalische Volltextsuche (Postgres FTS, BM25-artig). Beide Ranglisten werden per Reciprocal Rank Fusion (RRF) kombiniert – robust gegen Synonyme und exakte Begriffe.

Post-Retrieval-Filterung & ACL-Berechtigungen

Harter Mandantenfilter (knowledge_space_id) serverseitig erzwungen, Relevanzschwelle, Zugriffskontrolle (ACL): Nutzer sehen nur Chunks, für die sie berechtigt sind. Kein Cross-Space-Leak.

Multi-Signal-Scoring & Re-Ranking

Kandidaten werden nicht nur nach Ähnlichkeit, sondern über mehrere gewichtete Signale neu sortiert (siehe Gewichtungstabelle unten): semantische Relevanz, Keyword-Treffer, Quellenqualität, Aktualität, Autorität und Nutzer-Feedback.

MMR-Diversität & Per-Dokument-Capping

Maximal Marginal Relevance (λ) balanciert Relevanz gegen Redundanz; ein Cap pro Quelldokument verhindert, dass eine einzige Seite das Kontextfenster dominiert.

Fortgeschrittene Pipeline-Stufen

Optional: LLM-basiertes Re-Ranking (Cross-Encoder), Contextual Compression (irrelevante Sätze kürzen), Query Expansion / Multi-Query und Konfliktauflösung bei widersprüchlichen Quellen.

Prompt-Assembly & LLM-Vorbereitung

Token-Budget-Management, „lost in the middle“-Anordnung (beste Chunks an Anfang/Ende), nummerierter Quellen-Kontext und gehärteter Systemprompt: Kontext = Daten, keine Befehle.

Output-Guardrails, Maskierung & Citation-Validierung

Nachgelagerte Prüfung: Es werden nur tatsächlich bereitgestellte Quellen zitiert, PII wird maskiert, der Systemprompt nie offengelegt, und bei fehlender Grundlage greift das deterministische No-Answer-Gate.

Evaluation & Feedback-Loop

Offline-Metriken (Precision, Recall, Groundedness/Faithfulness, Citation Accuracy, No-Answer Accuracy) auf einem Golden-Set, Betriebsmetriken (Latenz, Error-Rate, Token-Cost) via Micrometer und ein Nutzer-Feedback-Loop (EWMA), der zurück in Stufe 4 fliesst.

Multi-Signal-Scoring: mögliche Gewichtung von Relevanzsignalen

Das folgende Schema ist ein bewusst illustratives Beispiel, keine universelle Empfehlung. Gewichte müssen auf einem Golden Set kalibriert werden.

0.45

Vektor-Ähnlichkeit

Semantische Relevanz aus dem Embedding-Abgleich (Kosinus-Ähnlichkeit).

0.15

Lexikalische Suche

Keyword-Vorkommen (BM25 / Postgres FTS) – wichtig für exakte Begriffe & Codes.

0.15

Quellen-Qualität

Parsing-Qualität & Review-Status des Quelldokuments.

0.10

Aktualität (Recency)

Exponentieller Altersabfall – frische Inhalte werden bevorzugt.

0.08

Autorität

Verlinkungen & Zitierungshäufigkeit der Quelle.

0.07

Nutzer-Feedback

Vergangenes Daumen-Feedback, geglättet per EWMA.

MMR Lambda (λ)

Maximal Marginal Relevance steuert die Balance zwischen Relevanz (λ = 1.0) und Redundanzvermeidung (λ = 0.0). Ein typischer Wert von ca. 0.7 liefert relevante, aber vielfältige Chunks – so wird das Kontextfenster nicht mit Duplikaten gefüllt.

0.0 — max. Diversität

1.0 — max. Relevanz

Kombination mit einer Graph-Datenbank (Graph-RAG)

Wenn Beziehungen zwischen Entitäten wichtig sind, ergänzt ein Wissensgraph die Vektorsuche.

Warum Graph-RAG?

Reine Vektorsuche findet ähnliche Textstellen, aber keine Mehrschritt-Zusammenhänge (Multi-Hop). Ein Wissensgraph modelliert Entitäten (Personen, Produkte, Verträge) und ihre Beziehungen explizit. So lassen sich Fragen beantworten wie „Welche Verträge hängen an Lieferant X, der wiederum Standort Y beliefert?“.

Hybrider Ablauf

Vektorsuche findet relevante Einstiegsknoten (semantischer Anker).
Graph-Traversierung sammelt verbundene Fakten über 1–2 Hops.
Text-Chunks + Graph-Pfade werden gemeinsam in den Kontext gegeben.
Das LLM begründet die Antwort entlang der nachvollziehbaren Beziehungskette.

Mit Spring AI heute machbar: Spring AI liefert die Abstraktionen für Embeddings, VectorStore und Chat-Modelle anbieterunabhängig. Der Graph-Layer (z. B. Neo4j oder eine Property-Graph-Erweiterung in PostgreSQL) wird als zusätzliche Retrieval-Quelle eingebunden und per RRF mit der Vektorsuche fusioniert.

Evaluation & Feedback-Loop

Qualität wird gemessen, nicht vermutet – als Merge-Gate und im laufenden Betrieb.

Precision & Recall

Werden die erwarteten Quell-Chunks gefunden – und nur die relevanten?

Groundedness / Faithfulness

Ist jede Aussage durch einen Chunk gedeckt, ohne Halluzination?

Citation Accuracy

Werden nur bereitgestellte Quellen korrekt indexiert zitiert?

No-Answer Accuracy

Wird bei themenfremden Fragen korrekt der No-Answer-Satz geliefert?

Latenz & Token-Cost

p50/p95 je Stufe und Kosten pro Anfrage – via Micrometer/Actuator.

Feedback-Loop (EWMA)

Daumen-Feedback fliesst geglättet zurück ins Multi-Signal-Scoring.

RAG produktiv mit Ihren Daten?

Wir bauen produktionsreife RAG-Systeme mit Spring AI – on-premise oder auf Schweizer Infrastruktur.

Live-Demo ausprobieren Projekt besprechen

Advanced RAG-Architektur

Neun mögliche Bausteine einer produktionsnahen RAG-Pipeline

Dokumenten-Verarbeitung & Chunking (Ingestion)

Hybride Retrieval-Engine (Dense, Sparse & RRF)

Post-Retrieval-Filterung & ACL-Berechtigungen

Multi-Signal-Scoring & Re-Ranking

MMR-Diversität & Per-Dokument-Capping

Fortgeschrittene Pipeline-Stufen

Prompt-Assembly & LLM-Vorbereitung

Output-Guardrails, Maskierung & Citation-Validierung

Evaluation & Feedback-Loop

Multi-Signal-Scoring: mögliche Gewichtung von Relevanzsignalen

Vektor-Ähnlichkeit

Lexikalische Suche

Quellen-Qualität

Aktualität (Recency)

Autorität

Nutzer-Feedback

MMR Lambda (λ)

Kombination mit einer Graph-Datenbank (Graph-RAG)

Warum Graph-RAG?

Hybrider Ablauf

Evaluation & Feedback-Loop

Precision & Recall

Groundedness / Faithfulness

Citation Accuracy

No-Answer Accuracy

Latenz & Token-Cost

Feedback-Loop (EWMA)

RAG produktiv mit Ihren Daten?

Passende Vertiefungen

Was ist Retrieval-Augmented Generation?

Vorteile und Nachteile von RAG

RAG mit Spring AI und pgvector