Tech

Google: Maschinen, die auf Katzen starren

14. Dezember 2017

Google Europes Forschungsleiter erklärt, warum Maschinen auf Katzen starren, um zu lernen.

Als Leiter des Google Europe Research Teams fokussiert sich Emmanuel Mogenet auf die Weiterentwicklung der künstlichen Intelligenz für Google-Produkte. Im Interview erzählt er von der Schwierigkeit, Katzen zu erkennen, Horrorszenarien und maschinellem Menschenverstand.

Was genau umfasst Ihr Job?
EM: Ich leite das Google Europe Research Team. Unser Fokus liegt auf drei Themen: natürliche Spracherkennung, maschinelles Verständnis und maschinelles Lernen bzw. künstliche Intelligenz.

Warum fokussiert sich Google so stark auf Zürich?
Dafür gibt es einige Gründe. Wir haben in Zürich bereits seit 2004 ein Engineering-Büro, das gesund gewachsen ist. Und dass es bereits ein Team gab, ist auch einer der Gründe, warum wir Google Research in Zürich machen. Hier arbeiteten bereits Leute an YouTube, Google Search oder Gmail. Zudem ist die Schweiz ein unternehmensfreundliches Land.

Es gibt in Europa auch viele talentierte Leute in Forschung und Wirtschaft, die sich mit den Bereichen maschinelles Lernen und künstliche Intelligenz gut auskennen. Wir wollen mit diesen Personen arbeiten. Es will nun mal nicht jeder in den USA leben. Doch auch diese Menschen wollen wir für Google gewinnen – und dazu braucht es ein Research Lab in Europa. Auch die hiesigen Universitäten sind im Bereich Informatik extrem stark. Natürlich ist eine davon die ETH Zürich, eine der besten Universitäten in diesem Bereich.

Auch in Frankreich, Deutschland und Großbritannien gibt es exzellente Einrichtungen. Und Zürich ist in Europa zentral gelegen und hat einen hohen Lebensstandard.

Arbeitet Google in Zürich an der Verbesserung von bestehenden Produkten? Oder werden auch neue kreiert?
Beides. Wir sind als Google Research Europe eine Forschungsorganisation. Wenn man Forschung betreibt, muss man sich immer eine Frage stellen: Was ist mein Risiko und was ist mein Ertrag? Wenn man an kurzfristigen Projekten arbeitet, die einen direkten Einfluss auf ein Google-Produkt haben, sind Risiko und Ertrag niedrig. Dann befasst man sich auch mit sehr großen, komplexen Problemen. Hier ist das Risiko wegen der geringen Erfolgswahrscheinlichkeit groß. Wenn man diese Probleme dann aber löst, ist wiederum der Ertrag extrem hoch.

Ein Beispiel ist das Google-Forschungsteam, das sich mit Quantum Computing befasst. Das ist extrem schwierig – wenn sie es aber hinbekommen, ist das eine tolle Errungenschaft. Wir haben Zürich auch ausgewählt, weil wir hier schon ein starkes Team hatten, das vor allem den Google Assistant mitgestaltet hat. Mit ihnen arbeiten wir eng zusammen, und der Assistant wird in Produkte integriert.

Würde die maschinelle Bilderkennung, wie sie Google Assistant mittlerweile kann, auch bei weniger bekannten Fotos funktionieren? Etwa bei der Diagnose von Krankheiten, die nur wenige Menschen überhaupt kennen?
Ja. Wir sind zum ersten Mal in der Lage, Maschinen durch Beispiele lernen zu lassen. Früher geschah das über Regeln, die man einzeln programmieren musste, ähnlich einem Kochrezept. Computern heutzutage Multiplikationen beizubringen, ist also einfach, da es klare Regeln gibt. Ihnen aber zu zeigen, wie sie Katzen erkennen, ist schon schwieriger.

Fast jeder Mensch erkennt eine Katze auf einem Bild – doch keiner kann erklären, wie er das tut. Wir tun es instinktiv. Alle „alten“ Fähigkeiten lassen sich programmieren. Fähigkeiten, die wir Menschen jedoch nicht genau beschreiben können, konnten wir bis vor Kurzem nicht nachbilden. Wie wir zu Fuß gehen, wie wir einen Freund erkennen, oder den Stil von Van Gogh zu imitieren. Durch „Deep Learning“ können wir das nun. Wir erreichen das durch Vorzeigen von Beispielen. Mit der Zeit fängt die Maschine an, zu lernen. Dann fängt sie an, die richtigen Antworten auszuspucken. Bald kann der Computer dann sogar auf ihm unbekannten Bildern Katzen erkennen. Dazu braucht es überwachte Daten. Sofern wir genügend Bilder haben, worauf ein Mensch ein Chromosom identifiziert hat, kann die Maschine die Erkennung von Chromosomen lernen.

Wie kann man Maschinen etwas beibringen, was auch Menschen nicht können? Etwa, eine der Menschheit noch unbekannte Krankheit zu diagnostizieren?
Bei diesem „unüberwachten Lernen“ gibt es noch viele Fragen und leider keine oder nicht ausreichende Antworten. Wenn wir beispielsweise eine Million Bilder haben, davon aber nur zehn Stück kategorisiert sind – befindet sich eine Katze auf dem Bild? –, dann nennt sich das unüberwachtes Lernen. In diesem Feld machen wir enorme Fortschritte. Dieses Feld ist aber komplex. Ich denke, dass wir an einen Punkt kommen werden, an dem Maschinen die Welt auch ohne menschliche Lehrer verstehen.

Die Wirtschaft ist sehr begeistert von dem Schlagwort Big Data. Doch der Großteil der Daten ist roh, nicht kategorisiert und unstrukturiert. Ein Beispiel war früher Googles Street-View-Dienst. Wir hatten extrem viele Bilder, konnten aber nichts damit anfangen. Hier kann uns maschinelles Lernen unterstützen, aus großen Datenmengen und ohne menschlichen Eingriff sinnvolle Schlüsse zu ziehen.

Eine Kritik, die sich Google oft gefallen lassen muss, ist, dass man sich zu sehr auf Forschung konzentriert statt auf die User Experience. Ein Beispiel ist der Smart-Speaker-Trend, den Amazon früher erkannte. Wie reagieren Sie auf diese Kritik?
Ich stimme ihr nicht zu. Es stimmt, Amazon war in diesem Bereich First Mover. Doch es geht um die kurze gegenüber der langen Frist. Ein Beispiel ist das selbstfahrende Auto: Google war das erste Unternehmen, das hierbei einen Durchbruch erzielte. In der Zwischenzeit haben viele andere Unternehmen begonnen, auch daran zu arbeiten. Die Produkte, die jetzt am Markt sind, funktionieren aber noch nicht sehr gut, Tesla-Autos hatten beispielsweise zahlreiche Unfälle. Wir haben lange gewartet, bevor wir das Problem als gelöst empfanden. Forschung und Entwicklung dauern lange, doch wir sind die Einzigen, die die Zeit und das Geld investierten, um das richtige Produkt zu bauen.

Wir können nicht mit halb fertigen Autos am Markt vertreten sein. Wir brauchen Autos, die vollständig automatisch fahren und sicher sind. Im Bereich des Assistants verhält es sich ähnlich. Es ist nicht einfach, dieses Problem zu lösen. Bis wir unser fertiges Produkt abliefern, können wir aber etwas bieten, das deutlich tiefer geht, als es andere Sprachassistenten den Kunden bieten. Diese Dinge brauchen einfach Zeit. Die Frage ist: Liefern wir lieber ein halb fertiges Produkt, um als Erste am Markt zu sein? Oder wollen wir unsere Arbeit machen und etwas liefern, das funktioniert und in die Tiefe geht? Bei Google wählen wir eher die zweite Option.

Das birgt Gefahren, falls bei diesen Produkten „the winner takes all“ gilt. Ist das so?
Nein, nicht notwendigerweise, speziell im Markt für selbstfahrende Autos nicht. Die Kunden erwarten, dass diese Geräte das Richtige tun. Ich denke, dass das Unternehmen mit der besten Technologie am Ende gewinnt, selbst, wenn es etwas länger dauert. Im Bereich der Sprachassistenten muss man die Produkte einfach unterscheiden.

Wenn man Echo eine suchmaschinenspezifische Frage stellt, die nicht auf den Kauf von Amazon-Produkten abzielt – und das mit dem Google-Produkt vergleicht –, ist schnell klar, dass die jeweiligen Sprachassistenten spezifische Stärken je nach Anwendungsgebiet haben.

Wie stehen Sie zu Horrorszenarien bezüglich künstlicher Intelligenz?
Ich stimme diesen Meinungen nicht zu, niemand kann die Zukunft voraussagen. Meine Ansicht: Künstliche Intelligenz und maschinelles Lernen werden uns als Menschen ermächtigen und bisher unmögliche Dinge möglich machen. Kurzfristig wird unser Leben besser und einfacher werden, auf lange Sicht – 50, 100 Jahre – werden wir unfassbare Dinge schaffen. Es wird nicht das Ende der Menschheit bedeuten. Ich habe jedenfalls keine Angst.
Wenn unüberwachtes Lernen schwer lösbar, aber lösbar ist: Was passiert, wenn künstliche Intelligenz die des Menschen übersteigt?

Sie tut das teilweise ja schon. Vor 100 Jahren war ein Mensch die beste Lösung, um ein Feld zu pflügen. Dann kam eine neue Technologie und vereinfachte die Arbeit deutlich. Technische Entwicklungen übernehmen Tätigkeiten. Früher gab es in Japan Angestellte, die Knöpfe in Aufzügen drückten. Doch das ist nicht unbedingt ein Ersatz, letztendlich übernimmt die Technologie Arbeit, die wir nicht erledigen wollen. Das gibt mir als Mensch Zeit, spannendere Dinge zu tun. Ich behaupte, dass es uns 2017 deutlich besser geht als den Menschen im Jahre 1900. Maschinen schlagen uns beim Go-Spielen. Ein minimaler Anteil der Go-Community sagt aber, dass das Spiel deshalb vorbei ist. Es gibt ein Revival, denn die besten Spieler entdecken nun völlig neue Aspekte, weil die Maschine ihnen neue Lösungen zeigt.

Was ist für Sie der „Heilige Gral“ hinsichtlich maschinellen Lernens?
Es gibt zwei Dinge, die ich hier in Zürich gerne schaffen würde. Ich will maschinelles Lernen zugänglicher für branchenferne Menschen machen. Es gibt viele Leute und Unternehmen, die wirklich davon profitieren könnten. Jeder kann Auto fahren. Genauso sollte jeder Einzelunternehmer in der Lage sein, maschinelles Lernen im Alltag einzusetzen. Google sollte etwa anhand eines Excel-Sheets voller Immobilienpreise den Preis für jedes beliebige Haus berechnen können.

Das zweite Ziel, das ich nennen möchte, ist um einiges ambitionierter. Ich will das Problem des „Common Sense“ lösen. Das heißt: Wir sprechen miteinander – und verstehen einander. Das können wir, weil wir beide ein gemeinsames Modell der Welt haben. Maschinen müssen unsere Welt aber erst verstehen. Wenn ich „Auto“ sage, stellen wir beide uns eine Straße vor, auf der das Auto fährt. Maschinen wissen das aber nicht. Für sie könnte die Straße auch über dem Auto liegen. Ich möchte Computern also gesunden Menschenverstand beibringen. Also einen Assistant entwickeln, der unsere Lebensumstände voll umfänglich versteht. Das ist aber ein langfristiges Forschungsprogramm, es braucht fünf bis zehn Jahre, nur um an der Oberfläche zu kratzen.

Dieser Artikel ist in unserer Novemberausgabe 2017 "Lernen Leben Leistung " erschienen.