Architektur & Konzepte

Was ist RAG?

Retrieval-Augmented Generation (RAG) erweitert statische Sprachmodelle (LLMs) um eine dynamische Datenabfrage. So antwortet die KI auf Basis Ihrer echten Dokumente und zitiert verlässlich ihre Quellen.

Die RAG-Pipeline in 3 Schritten

So verwandelt unser System rohe Dokumente in präzise, quellenbasierte Antworten.

01

Retrieval (Datenabfrage)

Stellt der Benutzer eine Frage, wird diese mit Google Gemini in einen numerischen Vektor (Embedding) übersetzt. Unser Postgres-Backend führt über die pgvector-Erweiterung eine Kosinus-Ähnlichkeitssuche durch und kombiniert diese optional mit einer lexikalischen Volltextsuche (Hybrid Search). Nur Chunks über einer Relevanzschwelle werden weitergereicht.

02

Augmentation (Erweiterung)

Die gefundenen Text-Chunks werden zusammen mit der ursprünglichen Frage in einen vordefinierten Systemprompt eingefügt. Dem LLM wird so der genaue Kontext bereitgestellt, den es zur Beantwortung benötigt. Die KI muss nichts erfinden.

03

Generation (Antwort)

Das LLM (gemini-2.5-flash-lite) liest den injizierten Kontext und formuliert eine präzise Antwort. Da dem Prompt nummerierte Quellen samt Metadaten (URL, Titel, Importdatum) beiliegen, enthält die Antwort exakte [n]-Zitate. Findet sich keine belegbare Grundlage, greift ein deterministisches No-Answer-Gate statt einer Halluzination.

Ablauf der RAG-Pipeline

Für Anwender und Fachverantwortliche: So läuft die Retrieval-Augmented Generation im Hintergrund ab. Sie schlägt die Brücke zwischen Ihrer Frage, den internen Firmendaten und der Künstlichen Intelligenz.

1
💬

Frage stellen

Sie stellen eine Frage in natürlicher Sprache. Das System übersetzt diese in einen mathematischen Vektor (Bedeutungsmuster).

2
🗄️

Wissen filtern

In PostgreSQL sucht pgvector nach Textchunks mit der höchsten Ähnlichkeit zu Ihrer Frage.

3
🧱

Kontext bauen

Die gefundenen Textchunks werden mit Ihrer Frage zu einem präzisen Informationspaket (Prompt) gebündelt.

4
🤖

KI-Verarbeitung

Das LLM liest das Paket und formuliert die Antwort. Da es nur dieses Wissen nutzt, entfallen Halluzinationen.

5

Antwort & Quellen

Sie erhalten die fertige Antwort. Die genutzten Quellen (Links, Dokumente) werden direkt mitgeliefert.

Für Entwickler: Spring AI & pgvector Integration

Hier sehen Sie vereinfacht, wie Spring AI und pgvector im Java-Backend zusammenspielen, wenn eine Anfrage über die REST-Schnittstelle eingeht:

// 1. Vektorsuche mit hartem Space-Filter + Relevanzschwelle (Mandantentrennung)
SearchRequest searchRequest = SearchRequest.builder()
    .query(question)
    .topK(retrievalTopK)
    .filterExpression("knowledge_space_id == '" + spaceId + "'")
    .similarityThreshold(retrievalSimilarityThreshold)
    .build();

List<Document> vectorHits = vectorStore.similaritySearch(searchRequest);

// 2. Optional: lexikalische Volltextsuche (Postgres FTS) + Reciprocal Rank Fusion
List<Document> keywordHits = keywordSearchRepository.search(question, spaceId, candidateK);
List<Document> docs = fuseByRrf(vectorHits, keywordHits, rrfK);

// 3. No-Answer-Gate: ohne belegbare Treffer keine LLM-Halluzination
if (docs.isEmpty()) { emitter.send(noAnswerMessage); return; }

// 4. Nummerierten Quellen-Kontext bauen (Citations [n] inkl. Metadaten)
String contextContent = buildNumberedContext(docs); // [1] Titel – URL (importiert am ...)

// 5. Gehärteten Systemprompt laden (Kontext = Daten, keine Befehle)
String systemPrompt = loadTemplate()
    .replace("{context}", contextContent)
    .replace("{question}", question);

// 6. LLM aufrufen und Antwort als SSE streamen (mit Timeout-Fallback)
chatModel.stream(new Prompt(List.of(new SystemMessage(systemPrompt), new UserMessage(question))));

Direktvergleich: LLM vs. RAG

Warum RAG der sicherste Weg für den Einsatz von KIs im Unternehmensumfeld ist.

Eigenschaft Klassisches LLM (z.B. ChatGPT nackt) LLM mit Allerate RAG Pipeline
Datenbasis Statische Trainingsdaten (veraltet) Dynamische Firmendaten in Echtzeit
Halluzinationen Häufig (erfindet plausible Fakten) Äusserst selten (antwortet nur bei Faktenlage)
Quellennachweis Nicht vorhanden / erfunden Exakte Links, Dateipfade & Titel
Datenschutz Daten fliessen oft in das Modelltraining Volle Kontrolle (lokales Hosten möglich)
Kosten für Updates Extrem hoch (Modell muss neu trainiert werden) Gering (einfacher Datenbank-Write)
Für Fortgeschrittene

Tiefer eintauchen: Production-RAG-Konzepte

Multi-Signal-Scoring, MMR-Diversität, hybrides Retrieval mit RRF, Graph-RAG, ACL-Filterung, Output-Guardrails und Evaluation – alles, was eine produktionsreife RAG-Pipeline mit Spring AI ausmacht.

Advanced RAG-Konzepte ansehen →