Was ist RAG?
Retrieval-Augmented Generation (RAG) erweitert statische Sprachmodelle (LLMs) um eine dynamische Datenabfrage. So antwortet die KI auf Basis Ihrer echten Dokumente und zitiert verlässlich ihre Quellen.
Die RAG-Pipeline in 3 Schritten
So verwandelt unser System rohe Dokumente in präzise, quellenbasierte Antworten.
Retrieval (Datenabfrage)
Stellt der Benutzer eine Frage, wird diese mit Google Gemini in einen numerischen Vektor (Embedding) übersetzt. Unser Postgres-Backend führt über die pgvector-Erweiterung eine Kosinus-Ähnlichkeitssuche durch und kombiniert diese optional mit einer lexikalischen Volltextsuche (Hybrid Search). Nur Chunks über einer Relevanzschwelle werden weitergereicht.
Augmentation (Erweiterung)
Die gefundenen Text-Chunks werden zusammen mit der ursprünglichen Frage in einen vordefinierten Systemprompt eingefügt. Dem LLM wird so der genaue Kontext bereitgestellt, den es zur Beantwortung benötigt. Die KI muss nichts erfinden.
Generation (Antwort)
Das LLM (gemini-2.5-flash-lite) liest den injizierten Kontext und formuliert eine präzise
Antwort. Da dem Prompt nummerierte Quellen samt Metadaten (URL, Titel, Importdatum) beiliegen, enthält die Antwort
exakte [n]-Zitate. Findet sich keine belegbare Grundlage, greift ein deterministisches No-Answer-Gate statt einer Halluzination.
Ablauf der RAG-Pipeline
Für Anwender und Fachverantwortliche: So läuft die Retrieval-Augmented Generation im Hintergrund ab. Sie schlägt die Brücke zwischen Ihrer Frage, den internen Firmendaten und der Künstlichen Intelligenz.
Frage stellen
Sie stellen eine Frage in natürlicher Sprache. Das System übersetzt diese in einen mathematischen Vektor (Bedeutungsmuster).
Wissen filtern
In PostgreSQL sucht pgvector nach Textchunks mit der höchsten Ähnlichkeit zu Ihrer Frage.
Kontext bauen
Die gefundenen Textchunks werden mit Ihrer Frage zu einem präzisen Informationspaket (Prompt) gebündelt.
KI-Verarbeitung
Das LLM liest das Paket und formuliert die Antwort. Da es nur dieses Wissen nutzt, entfallen Halluzinationen.
Antwort & Quellen
Sie erhalten die fertige Antwort. Die genutzten Quellen (Links, Dokumente) werden direkt mitgeliefert.
Für Entwickler: Spring AI & pgvector Integration
Hier sehen Sie vereinfacht, wie Spring AI und pgvector im Java-Backend zusammenspielen, wenn eine Anfrage über die REST-Schnittstelle eingeht:
// 1. Vektorsuche mit hartem Space-Filter + Relevanzschwelle (Mandantentrennung)
SearchRequest searchRequest = SearchRequest.builder()
.query(question)
.topK(retrievalTopK)
.filterExpression("knowledge_space_id == '" + spaceId + "'")
.similarityThreshold(retrievalSimilarityThreshold)
.build();
List<Document> vectorHits = vectorStore.similaritySearch(searchRequest);
// 2. Optional: lexikalische Volltextsuche (Postgres FTS) + Reciprocal Rank Fusion
List<Document> keywordHits = keywordSearchRepository.search(question, spaceId, candidateK);
List<Document> docs = fuseByRrf(vectorHits, keywordHits, rrfK);
// 3. No-Answer-Gate: ohne belegbare Treffer keine LLM-Halluzination
if (docs.isEmpty()) { emitter.send(noAnswerMessage); return; }
// 4. Nummerierten Quellen-Kontext bauen (Citations [n] inkl. Metadaten)
String contextContent = buildNumberedContext(docs); // [1] Titel – URL (importiert am ...)
// 5. Gehärteten Systemprompt laden (Kontext = Daten, keine Befehle)
String systemPrompt = loadTemplate()
.replace("{context}", contextContent)
.replace("{question}", question);
// 6. LLM aufrufen und Antwort als SSE streamen (mit Timeout-Fallback)
chatModel.stream(new Prompt(List.of(new SystemMessage(systemPrompt), new UserMessage(question)))); Direktvergleich: LLM vs. RAG
Warum RAG der sicherste Weg für den Einsatz von KIs im Unternehmensumfeld ist.
| Eigenschaft | Klassisches LLM (z.B. ChatGPT nackt) | LLM mit Allerate RAG Pipeline |
|---|---|---|
| Datenbasis | Statische Trainingsdaten (veraltet) | Dynamische Firmendaten in Echtzeit |
| Halluzinationen | Häufig (erfindet plausible Fakten) | Äusserst selten (antwortet nur bei Faktenlage) |
| Quellennachweis | Nicht vorhanden / erfunden | Exakte Links, Dateipfade & Titel |
| Datenschutz | Daten fliessen oft in das Modelltraining | Volle Kontrolle (lokales Hosten möglich) |
| Kosten für Updates | Extrem hoch (Modell muss neu trainiert werden) | Gering (einfacher Datenbank-Write) |
Tiefer eintauchen: Production-RAG-Konzepte
Multi-Signal-Scoring, MMR-Diversität, hybrides Retrieval mit RRF, Graph-RAG, ACL-Filterung, Output-Guardrails und Evaluation – alles, was eine produktionsreife RAG-Pipeline mit Spring AI ausmacht.
Advanced RAG-Konzepte ansehen →