Revolution der Online-Suche: DFKI und Google gestalten die Zukunft der Web-Recherche

Ein Sprung in die Zukunft der Informationsbeschaffung

(TL). Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) steht an der Spitze einer bahnbrechenden Entwicklung im Bereich der Online-Recherche. Unter der Leitung von Sven Schmeier, Experte für Sprach- und Sprachtechnologien am DFKI, arbeitet ein Forschungsteam intensiv daran, die Art und Weise, wie wir Informationen im Web suchen und finden, grundlegend zu verändern. In Zusammenarbeit mit Google entwickeln sie Methoden, um die komplexen Strukturen und Netzwerke von Unternehmens-Webseiten für Suchmaschinen zugänglich zu machen. Ihr Ziel: Antworten auf nahezu jede denkbare Frage zu liefern, indem große Sprachmodelle (LLMs) verwendet werden.

Das Projekt „Sovereign Cloud“: Eine neue Ära der Webseiten-Erfassung

Das ambitionierte Projekt trägt den Namen „Sovereign Cloud: Secure integration of business expert knowledge into large language models“. Es erforscht, wie Webseiten in ein Retrieval Augmented Generation (RAG) System eingebettet werden können, um komplexe Fragen direkt über diese Seiten zu beantworten. Durch die Nutzung von RAG soll ein Sprachmodell optimiert werden, sodass es Informationen außerhalb der eigenen Trainingsdaten referenzieren und in Antworten integrieren kann. Dadurch könnten bisher schwer zugängliche oder kombinierbare Informationen einfach verfügbar gemacht werden.

Barrierefreie Webseiten und vereinfachte Pflege

Ein bemerkenswerter Vorteil des Projekts ist die automatische Barrierefreiheit der Webseiten. Diese können in verschiedenen Sprachen, über Text, Sprache, Bilder und in vereinfachter Sprache präsentiert werden. Zudem würde die Pflege von Webseiten erheblich vereinfacht, was die Effizienz und Benutzerfreundlichkeit steigern könnte.

Echte Antworten statt nur Dokumente

Herkömmliche Suchmaschinen liefern lediglich Dokumente als Suchergebnisse. Im Gegensatz dazu geben RAGs tatsächliche Antworten auf spezifische Anfragen. Doch die Integration von RAGs aus Websites bringt noch ungelöste Probleme mit sich. Das DFKI-Team hat jedoch einen Lösungsansatz entwickelt: Durch die spezielle Indizierung und die Umwandlung der Website-Inhalte in RAG-Inhalte könnten allgemeine Lösungen geschaffen werden, die auch auf andere Quellen anwendbar sind.

Herausforderungen und Fortschritte

Die Erschließung aller relevanten Informationen für Suchanfragen stellt eine gewaltige Aufgabe dar, die zahlreiche Hürden mit sich bringt. Eine der größten Herausforderungen ist die Individualität der Webseiten. Beim Erstellen robuster textueller Repräsentationen stoßen die Forschenden auf anwendungsspezifische Schwierigkeiten, die durch die unterschiedlichen Designs und Layouts der Webseiten bedingt sind.

Aktuell forscht das Team an zwei Hauptfronten: der Erstellung eines Benchmark-Datensatzes für Multi-Hop-Informationen Retrieval über Webinhalte und der Erprobung von Reasoning-Fähigkeiten der Open-Source LLMs zur Navigation von Webinhalten.

Die Suche nach dem perfekten Sprachmodell

Trotz Fortschritten zeigen die aktuellen Zero-Shot-Tests, dass die genutzten Sprachmodelle noch nicht optimal auf Fragestellungen und Webinhalte reagieren. Wesentliche Unterschiede zwischen den Open-Source-LLMs Llama2 70b und GPT4 wurden bereits festgestellt. Daher geht die Suche nach einem passenden Modell weiter. In kommenden Tests soll das Modell Gemini ultra 1.5 erprobt werden, um eine noch bessere Performance zu erreichen. Das eigens erstellte Datenset und die verbesserten Reasoning-Fähigkeiten der Gemini-Modelle sollen zu diesem Erfolg beitragen.

Fazit

Die Forschung des DFKI und Google markiert einen Meilenstein in der Entwicklung der Online-Suche. Durch den Einsatz von KI und großen Sprachmodellen könnten Webseiten nicht nur zugänglicher und nutzerfreundlicher werden, sondern auch die Art und Weise, wie wir Informationen finden und nutzen, revolutionieren. Trotz der bestehenden Herausforderungen sieht die Zukunft der Web-Recherche vielversprechend aus.