Sprachassistenten werden immer smarter. Doch damit das möglich ist, benötigen die Hersteller eine Menge Daten. Google und Co. stehen darum immer wieder in der Kritik. Nun will Mozilla einen Sprachassistenten fördern, der ohne Datenspeicherung auskommt. Die Künstliche Intelligenz wird mit freiwillig abgegebenen Daten trainiert.
Auf dem Markt der Sprachassistenten, die unser Zuhause smart und unsere Smartphones noch smarter machen, dominieren vor allem die großen Tech-Unternehmen Facebook, Google und Amazon. Doch es gibt Kritik an ihrer Software: Die Sprachassistenten sollen Daten an Clouds weiterleiten, die von Dritten transkribiert und ausgewertet werden können.
Freie Projekte "Deep Speech" und "Common Voice"
Die gemeinnützige Mozilla-Stiftung möchte dem eine Alternative entgegensetzen, die sensibler mit unseren Daten umgeht. Seit drei Jahren arbeitet sie an der freien Spracherkennung "Deep Speech". Sie soll in Echtzeit gesprochene Worte in Text übersetzen. Das kann zum Transkribieren von Vorträgen oder Telefonaten verwendet werden, aber auch dafür, Geräte zu steuern.
"Die Sprachsteuerungs-Projekte setzen auf Open Source Technologie, Transparenz und das Prinzip: Daten von allen für alle."
Um diese Sprachsteuerung zu ermöglichen und zu verbessern, benötigt Mozilla große Mengen an Daten – die bei herkömmlichen Herstellern durch das Aufzeichnen unserer Sprachaufnahmen generiert werden. Um genau das nicht zu tun, setzt Mozilla auf ein anderes Prinzip: Sie verwenden freiwillige Sprachaufnahmen.
Mehr Datenschutz mit Open Source
Auf der Seite von "Common Voice" kann jede und jeder seine Sprachaufnahme spenden, in dem sie oder er vorgegebene Sätze aufnimmt und abschickt. Diese Daten kann nicht nur Mozilla verwenden, sondern auch jedes Start-up, das ein Gerät mit Sprachsteuerung entwickeln möchte. Die freien Datenbanken mit Audioaufnahmen waren bisher zu klein, um eine Spracherkennungssoftware zu trainieren, erklärt Martina Schulte von Deutschlandfunk Nova. Bei Mozilla stehen Datensätze in 30 Sprachen zur Verfügung - aktuell zum Beispiel 320 Stunden auf Deutsch und 780 Stunden Sprachmaterial auf Englisch. (Stand 28.2.2020).
Spracherkennung offline verfügbar
Martina Schulte ist überzeugt, dass unsere Daten bei der Sprachsteuerungssoftware tatsächlich sicherer sind. Der Grund: Deep Speech funktioniert auf unseren Endgeräten offline. Das bedeutet: Die Sprachschnipsel können gar nicht erst an die Server von Mozilla oder den jeweiligen Start-ups weitergesendet werden.