Im Vorfeld der Iot Business Trends unter dem Motto „Das Internet der Stimme – wie Alexa, Google, Cortana und Co die Unternehmen verändern“ haben wir mit De Kai, Professor und Dozent an den Universitäten in Hong Kong und Berkeley und einer der führenden Pioniere im Bereich Natural Language Processing über den Einsatz von künstlicher Intelligenz bei Übersetzungs-Tools gesprochen.
Über De Kai
De Kai ist Professor für Informatik und Ingenieurwesen an der Universität Hongkong und Distinguished Research Scholar am Berkeley’s International Computer Science Institute. Er ist einer von nur 17 Wissenschaftlern weltweit, die von der Association for Computational Linguistics als Founding ACL Fellow für seine bahnbrechenden Beiträge zur maschinellen Übersetzung und zu maschinellen Lernfundamenten von Systemen wie den Google/Yahoo/Microsoft-Übersetzern benannt wurden. De Kais KI-Forschung konzentriert sich auf die Verarbeitung natürlicher Sprache, Sprachtechnologie, Musiktechnologie und maschinelles Lernen. Er hat einen Kellogg-HKUST Executive MBA und einen BS in Computer Engineering von der UCSD. Im Jahr 2015 wurde er von Debretts HK 100 als eine der 100 einflussreichsten Persönlichkeiten Hongkongs ausgezeichnet.
Sie sagen: Maschinen können selbständig lernen, indem sie zwei Sprachen vergleichen. Wie funktioniert das?
Schauen Sie sich an wie Kinder Sprache lernen. Kinder lernen eine Sprache nicht im Vakuum. Wenn Kinder beispielsweise mit verbundenen Augen, an einen Stuhl gefesselt aufwachsen würden und ein Erwachsener würde eine Million Sätze zu ihnen sagen, dann würden diese Kinder die Sprache nicht lernen. Denn was uns tatsächlich ermöglicht, unsere Muttersprache zu lernen, ist, dass wir ständig zwei oder noch mehr Sprachen zueinander in Beziehung setzen und lernen, wie sie sich zueinander verhalten. Als Kinder korrelieren wir beispielsweise die auditive Darstellungssprache, also das, was wir hören, mit der visuellen Darstellungssprache dessen, was wir sehen oder der taktilen Darstellungssprache dessen, was wir fühlen.
Was wir gemacht haben, war für die damalige Zeit ziemlich radikal. Wir stellten uns gegen den traditionellen Ansatz in der Linguistik und Informatik, Sprache als einsprachige Einheit zu verstehen. Denn dieser Fehler hatte im Übrigen Wissenschaftler viele Jahrzehnte daran gehindert, weiterzukommen, weil sie nicht tief genug über die wahre Natur der Sprache nachdachten. Unser Ziel war, eine KI zu bauen, die Sprache lernen würde, indem wir die englische Repräsentationssprache, die sie „hörte“, mit einer chinesischen Repräsentationssprache, von dem, was sie „sah“ in Beziehung setzten. Dolmetschen und Übersetzen sind von Natur aus nämlich eindeutig zweisprachige Phänomene.
Meine Forschung verlagerte die Untersuchung, wie man die Struktur der Sprache lernen kann, weg von einem monolingualen Ansatz hin zu einem bilingualen Ansatz. Anstatt zu versuchen herauszufinden, was unter allen menschlichen Sprachen universell ist, haben wir erkannt, dass das, was wirklich universell ist, die Art von Beziehungen zwischen menschlichen Sprachen ist. Auf diese Weise konnten wir schnelle (polynomiale Zeit- und Raum-)Algorithmen zum Interpretieren und Übersetzen entwickeln, bei denen klassische Ansätze an ihren langsamen (exponentiellen Zeit- und Raum-)Algorithmen scheiterten. Dies führte zur Theorie der inversion transductions and stochastic ITGs (inversion transduction grammars), die einem Großteil der modernen maschinellen Übersetzung zugrunde liegt, heute sowohl in probabilistischen als auch in neuronalen Implementierungen. Dieser Durchbruch ermöglichte die Einführung von Systemen wie Google/Yahoo oder Microsoft-Übersetzern, auf die wir uns heute so stark verlassen.
Sprache macht komplexe Zusammenhänge und Gedanken auch für Maschinen zugänglich. Besteht die Möglichkeit, dass Maschinen sich bald bewusst werden, was sie sagen?
Die kommerzielle Technologie ist heute noch weit davon entfernt, Maschinen dazu zu bringen, auf einer vernünftigen menschlichen Ebene zu verstehen. Anstatt die grundlegenderen Probleme anzugehen, haben kommerzielle Ansätze die low hanging fruits aufgegriffen. Sie werfen zwar exponentiell größere Datenmengen und Berechnungen aus und doch machen die auf künstlicher Intelligenz basierenden Übersetzungs- und Dialogassistenten immer noch lustige Fehler, über die selbst Dreijährige lachen würden.
Bedenken Sie, dass kommerzielle KIs anhand vieler Billionen Wörter von Trainingsdaten trainiert werden. Im Gegensatz dazu beherrscht ein menschlicher Dreijähriger seine Muttersprache weitesgehend bis zum vierten Lebensjahr. Bis dahin hat er nur etwa 15 Millionen Wörter gehört. Mit anderen Worten, aktuelle „schwache KI“-Systeme werden auf weitaus mehr Datenmengen und Berechnungen trainiert als sie wirklich benötigen sollten, wenn sie wirklich intelligent wären. Aus menschlicher Sicht ist das verrückt, und die Lösung solcher Probleme ist die Art von Forschung, auf die ich mich konzentriere.
Allerdings glaube ich nicht, dass wir so weit von dem Punkt entfernt sind, an dem Maschinen sich dessen bewusst werden, was sie sagen. Es ist nur so, dass 99,9 Prozent der riesigen Investitionssummen, die heute in „KI“ investiert werden, nur in die bestehenden, geschwächten KI-Tools von der Stange fließen, anstatt sich mit den eigentlichen Fragen einer starken KI zu befassen. Ein winziger Bruchteil dieser Mittel würde tatsächlich die KI-Probleme lösen. Wenn Sie tiefer in das Thema eintauchen möchten, empfehle ich Ihnen meinen TEDx-Vortrag „Why AI is impossible without mindfulness„.
Was bedeutet das heute für die Art und Weise, wie wir mit Alexa, Siri und Co. umgehen?
Auch wenn die heutigen KIs noch schwach sind, sind sie bereits zu integralen, aktiven, nachahmenden Mitgliedern der Gesellschaft geworden. Und im Gegensatz zu regelbasierten KI-Systemen der Vergangenheit basieren die heutigen KI-Systeme auf maschinellem Lernen und neuronalen Netzwerken: Was bedeutet, dass es nicht viele Orte gibt, an denen man ethische Regeln festschreiben kann – nicht mehr als man den Kopf eines Menschen abschrauben und ethische Regeln einlöten könnte. Wenn sich die KI immer mehr bewusst werden, werden sie einfach Moral, Ethik und Werte von uns lernen – genau wie Menschenkinder. Wir, wir alle, sind die Trainingsdaten. Jeder von uns muss seine KI viel besser erziehen als wir es getan haben, wenn wir irgendeine Art von nachhaltigem Planeten in der KI-Ära erwarten.
Sie möchten mehr zum Thema Voice-Technologie, Sprachassistenten und Co erfahren? Dann melden Sie sich jetzt an zu den IoT Buisness Trends am 2. Juli in Düsseldorf.