Immer häufiger taucht der Begriff „Wissensdatenbank“ oder „Wissensbasis“ auf. Doch für viele ist es noch immer ein Rätsel, was sich eigentlich dahinter verbirgt. In diesem Info-Artikel wollen wir den Begriff genauer erklären.
Was ist eine Wissensbasis?
Eine Wissensbasis speichert das Wissen eines Unternehmens oder einer Organisation. Man kann sich eine Wissensbasis als Datenbank vorstellen, anders aber als in einer regulären Datenbank wird in einer Wissensbasis das Wissen so abgespeichert, dass es maschinell verarbeitet werden kann.
Heutzutage bedeutet dies häufig, dass das Wissen in vektorisierter Form abgelegt wird, damit anschließend mithilfe unterschiedlicher Suchverfahren das Wissen abgerufen werden kann.
Historisch gesehen wurde der Begriff Wissensbasis häufig mit den Expertensystemen der 1980er-Jahre assoziiert, aber seit 2023, durch das Aufkommen von LLMs wie ChatGPT, wird der Begriff Wissensbasis wieder vermehrt für die Datenbank in RAG-Anwendungen verwendet.
Wie wird das Wissen aufgebaut?
Die Quelle für das Wissen einer Wissensbasis liegt häufig in den (textuellen) Daten eines Unternehmens oder einer Organisation. Das können z. B. Dokumente wie PDFs sein (Handbücher, Produktdatenblätter) oder auch E-Mails und Chatverläufe. Grundsätzlich gilt: Alles, was interessantes Wissen zu einem Unternehmen, seinen Produkten, Dienstleistungen, Supportfällen und Arbeitsabläufen enthält, kann in einer Wissensbasis gespeichert werden.
Wichtig ist jedoch: Die Datenquellen sollten möglichst hochwertig sein. Je besser die Daten sind und je besser sie aufbereitet sind, desto präziser kann das Wissen später abgerufen werden.
Anschließend muss das Wissen in aufbereiteter Form in der jeweiligen Wissensbasis abgelegt werden. Wie die Daten aufbereitet werden müssen, ob sie vektorisiert werden müssen oder nicht, hängt von der eingesetzten Technologie ab.
Welche Technologien gibt es hierfür
Zum Aufbau einer Wissensbasis gibt es spezielle Datenbanken, aber auch herkömmliche Datenbanken können – häufig mit extra Plugins für Vektordaten – verwendet werden.
Eine kurze Auflistung von Technologien, die wir gerne einsetzen:
- PostgreSQL mit PGVector: PostgreSQL ist eine beliebte relationale Datenbank, die sich ideal für Geschäftsanwendungen eignet. Durch die Erweiterung „PGVector“ können vektorisierte Daten gespeichert und durchsucht werden. PGVector ist deswegen beliebt, weil man damit seine bestehende Postgres-Datenbank, die möglicherweise auch von der eigenen Geschäftsanwendung verwendet wird, weiterverwenden kann.
- Elasticsearch: Eine beliebte Datenbanklösung, die sich vor allem für die Suche in großen Datenmengen sehr gut eignet. Häufig wird Elasticsearch als „Datenbank-Frontend“ verwendet, um z. B. Daten aus einer bestehenden Datenbank zu cachen und für die eigene Suche aufzubereiten. Elasticsearch unterstützt von Haus aus Vektordaten und bietet bei der Abfrage nach solchen Daten verschiedene Suchverfahren an.
- Pinecone: Anders als die vorherigen Datenbanken wurde Pinecone speziell für den Einsatz als Wissensdatenbank entwickelt.
Wie immer gilt: Die Wahl der Technologie hängt von den Rahmenbedingungen des Projekts sowie dem späteren Einsatzzweck ab.
Wie wird eine Wissensbasis eingesetzt
Es bleibt zum Schluss die Frage: Wie wird eigentlich die Wissensbasis eingesetzt, sobald sie steht?
Hier ist es genauso wie bei einer klassischen Datenbank: Es wird eine Anwendungssoftware benötigt, welche auf die Wissensbasis zugreifen kann. Häufig wird hierfür eine Anwendung eingesetzt, die über RAG auf das Wissen der Wissensbasis zugreifen kann.
Wie kann SymbolicLabs beim Aufbau einer Wissensbasis unterstützen?
SymbolicLabs kann Ihnen helfen, eine Wissensbasis für Ihr Unternehmen aufzubauen, um über RAG auf das Wissen zugreifen zu können. Dabei kann SymbolicLabs sowohl die RAG-Anwendung als auch die Wissensdatenbank konzipieren, aufbauen, betreiben und beim Befüllen mit Ihren Unternehmensdaten beraten.

