Sprachassistenz

Sprachassistenz

Wie setze ich eine Schritt-für-Schritt-Anleitung um?

Spracherkennung

Bei cloudbasierten Spracherkennungssystemen werden Daten in der Cloud bearbeitet, d.h. zur Spracherkennung werden Sprachdateien an die Cloud übertragen. Dadurch kann Kontextwissen aus dem Internet und Künstliche Intelligenz zum Sprachverständnis mit statistischen Methoden berücksichtigt werden.

Suchbegriffe


Chatbots

Mental Health-Apps wollen die Psychische Gesundheit per Smartphone-App fördern, erhalten oder wiederherstellen.

Suchbegriffe


Themeneinführung

Definition: Sprache
Zentral für die menschliche Sprache ist die Verbindung von Lautbild und mentaler Vorstellung.

Unter Sprache versteht man im allgemeinen Sinn alle komplexen Systeme der Kommunikation.
Zentral für die menschlichen Sprachen ist, die willkürliche, nicht zwingende Verbindung von Lautbild und mentaler Vorstellung. (Weiterführend: Wikipedia)

Sprache ist ein System aus Zeichen mit einer Form- und Inhaltsseite.

  • Sprache besteht aus einer artikulierenden (z.B. Stimmorgan) und einer aufnehmenden (z.B. Ohr) Seite.
  • Sprache besteht besteht aus einer Formalen (z.B. akustisch-vokalen) und einer physiologisch-mentalen (z.B. Gedanke) Einheit
  • Sprache hat eine individuelle und eine Soziale Seite. Man kann die eine nicht ohne die andere Begreifen.
  • Sprache ist zu jedem Zeitpunkt sowohl ein feststehendes System als auch eine Entwicklung (vgl. de Saussure 2016, S. 8).

Memos zur Vertiefung

Linguistik ist die wissenschaftliche Disziplin, die Sprache beschreiben und erklären soll, z.B.

  • Sprache Formal beschreiben - damit z.B. eine Grammatik entwickelt wird, die von Computern lesbar ist.
  • Funktionen der Sprache erfassen.
  • Historische Stufen der Entwicklung von Sprache Nachzeichnen
  • mediale Formen von Sprachen (Laute, Schriftzeichen, Gebärden) aufzeigen
  • Beschreibungsebenen (Phonologie, Morphologie, Syntax, Semantik, Pragmatik) benennen
  • Sprachliche Variationen (Dialekte, Soziolekte, Jugendsprache, Fachsprache etc.) untersuchen
  • Sprache in der Interaktion untersuchen (vgl. Imo und Lanwer 2019, S. 1)



Weiterlesen

Sprachassistenten sind Regelwerke, die es ermöglichen natürliche menschliche Sprache zu interpretieren und z.B. Antworten zu liefern.

Ein Sprachassistent ist eine Software, die es ermöglicht

  • mittels Kommunikation in natürlicher, menschlicher Sprache
  • Informationen abzufragen, Dialoge zu führen und Assistenzdienste zu erbringen,
  • indem sie zur Spracherkennung eine Sprachanalyse vollzieht, diese semantisch interpretiert, logisch verarbeitet und
  • als Ergebnis durch Sprachsynthese eine Antwort formuliert. (Weiterführend: Wikipedia)



Weiterlesen

Menschliche Sprache zeichnet sich durch zeitlichen und räumlichen Transfer (10), vielfältiges Kombinieren (11) und Trennung von Laut und Bedeutung (13) aus.

Hockett liefert mit den Differenzkriterien menschlicher Sprache und Tierischer Kommunikation sprachtheoretische Grundannahmen (Kontrovers dazu: Everett 2005)

Differenzkriterien zwischen menschlicher Sprache - Tierkommunikation nach Hockett (via Pöhm 2020):

  1. Vocal-Auditory Channel - Sprechen und Hören: Signale werden durch Schallwellen vom Mund zum Gehör übertragen, nicht visuell, durch Berührung oder auf andere Weise.
  2. Broadcast transmission and directional reception - Ruf und gerichteter Empfang: Ein Signal lässt sich überall in Hörweite hören, seine Quelle kann durch das Gehör ausfindig gemacht werden.
  3. Rapid fading - Transistoriness - Vergänglichkeit des Signals: Die akustischen Signale sind äußerst kurzlebig, die spätere Auswertung ist unmöglich (anders bei Tierfährten oder Schrift).
  4. Interchangeability - Austauschbarkeit: Jeder Sprecher einer Sprache kann eine verstandene sprachliche Mitteilung reproduzieren (im Gegensatz zu den Balzsignalen verschiedener Tierarten, die ausschließlich dem Männchen oder dem Weibchen zur Verfügung stehen).
  5. Total Feedback - Rückkoppelung: Wer spricht, hört sich selbst zu und kann das Gesprochene bedenken (im Gegensatz zu den bei der Tierbalz häufigen visuellen Signalen, die für das balzende Tier selbst unsichtbar sind).
  6. Specialization - Spezialisierung: Die Schallwellen gesprochener Sprache haben ausschließlich Signalfunktion (im Gegensatz zum Hecheln eines Hundes, das physiologische Funktion hat).
  7. Sematnicity - Bedeutungsgehalt: Die Signalelemente tragen Bedeutung durch stabile Bezüge auf die reale Welt (anders als das Hecheln eines Hundes, mit dem dieser nicht »sagt«, dass es ihm heiss ist, sondern das physiologisch zum erhitzten Zustand gehört).
  8. Arbitariness - Willkürlichkit: Die Signalelemente sind nicht vom Wesen der Realität abhängig, auf die sie sich beziehen (während in den »Bienensprache« die Tanzgeschwindigkeit direkt die Entfernung des Nektars vom Bienenstock wiedergibt).
  9. Discreteness - Isolierbare Elemente: Die gesprochene Sprache nutzt nur ein begrenztes Sortiment von Lauten, die sich deutlich voneinander unterscheiden (im Gegensatz zu Knurrgeräuschen oder anderen Lauten der Erregung, die in ihrer Intensität kontinuierlich veränderbar sind.
  10. Displacement- Transfer: Der Mensch kann sich beim Sprechen auf zeitlich oder räumlich distanzierte Dinge beziehen (die meisten Tierschreie sind durch unmittelbare Umweltreize bedingt).
  11. Productivity - Produktivität: Dem Ausdruck und Verständnis von Bedeutung sind keine Grenzen gesetzt; mit Hilfe aller Satzelemente lassen sich immer wieder neue Sätze bilden (während es bei Tierrufen um feste und begrenzte Abfolgen handelt).
  12. Traditional Transmission - Überlieferung: Sprache wird von Generation zu Generation vor allem durch Unterricht und Lernen weitergegeben (während die Fähigkeit von Bienen, Nektarquellen anzugeben, genetisch übertragen wird)
  13. Duality of Patterning - Strukturelle Dualität: Sprachlaute tragen keine eigene Bedeutung, sondern werden auf unterschiedliche Weise zu bedeutungsvermittelnden Elementen (wie Wörtern) kombiniert (anders als Tierrufe, die sich nicht in zwei Strukturebenen unterteilen lassen).

Hockett lässt die Merkmale 6,7, 8 für Primaten gelten, was sicher nur statthaft ist, wenn man Bedeutung und Arbitrarität sehr einfach sieht. Hominoiden schreibt er die Merkmale 11 und 12 noch zu, 10, 11 und 13 sind spezifisch für den Menschen.

Weiterlesen

Es gibt Abstufungen zwischen Dauerstreaming, zeitweisem Streaming und lokaler Datenverarbeitung.

Grundprinzipien

  • Dauerstreaming: Sämtliche Audiodaten werden permanent übertragen auf zentralen Rechnern (der "Cloud") ausgewertet.
  • Keyword: Ein Keyword wird offline erkannt - nach dem Keyword werden bis zu einem festgelegten Endpunkt Audiodaten zur zentralen Auswertung übertragen.
  • Online-Training: Sprache wird zum Training online ausgewertet - und dann auf eine offline-Plattform übertragen.
  • Offline: Sprache wird ausschliesslich dezentral - auf einer autarken Einheit - erkannt.
Wichtig: Audiodateien beinhalten hier nicht nur die gesprochene Sprache - sondern auch alle im Hintergrund hörbaren Geräusche.


Weiterlesen

Weiterführend: Daten und Datenschutz


Studien

6 von 505 Chatbots werden untersucht (Mai 2020)

Das Review (2021) schliesst 6 Chatbot-Apps ein:

  • CogniCare mobile app (Android/iOS)
  • CogniCare (Alexa Skills version)
  • My Life Story (Alexa Skills)
  • Dementia Types (Alexa Skills)
  • Build Your Brain Power (Alexa Skills)
  • Everything Memory (Alexa Skills)

Untersucht wird in den Ebenen

  • Effizienz
    • Performance
  • Wirksamkeit
    • Funktionalität
  • Menschheit
  • Befriedigung
    • Einflüsse
    • Ethik und Verhalten
Weiterlesen

Gelöste Fragestellungen

Spracherkennung: Aktivierungswort
Einzelne Spracherkennungssysteme erfordern vorgegebene Aktivierungsworte. Ein direkter Vergleich von von Sprachassistenten ist damit nicht möglich.
Wir wollen im SimDeC Sprachassistenzen miteinander vergleichen - und alle mit dem gleichen Aktivierunswort (z.B. "DeepThought", "Spieglein Spieglein", [Zufallswort], [Kunstwort]) anzusprechen.
Für einen direkten Vergleich der Sprachassistenten ist es spannend, alle mit dem gleichen Aktivierungswort angesprochen werden. Das ist jedoch nicht möglich:

Implikationen

  • Ein direkter Vergleich der Sprachassistenten im SimDeC - etwa mit dem Aktivierungswort "Spieglein, Spieglein an der Wand" - ist nicht möglich.
  • Sprachassistenten mit einem oder wenigen vordefinierten Aktivierungsworten können akustisch ferngesteuert werden, z.B. bei gekipptem Fenster, im Telefonat, via Fernseher.
Weiterlesen

Methode

Gängige Formen des Genderns werden auf Google-Translate oder acapelabox (max. 300 Zeichen) per Copy& Paste eingefügt und vorgelesen.

Versuch 1 - Genderformen, isoliert

  • Beid-Nennung: Pflegerinnen und Pfleger.
  • Dehumanisierung: Pflegende
  • Binnen-I: PflegerInnen.
  • Unterstrich: Pfleger_innen.
  • Stern: Pfleger*innen.
  • Eichhörnchen: Pflegeeichhörnchen.
  • Schrägstrich: Pfleger/innen.
  • Doppelpunkt: Pfleger:innen.
  • Phettberg: das Pflegy und die Pflegys

Versuch 2 - Genderformen, im Satzbau

  • Die Pfleger:innen begründen wie folgt: erstens, zweitens, drittens.
  • Die Pfleger/innen stehen vor der Wahl: erstens/zweitens/drittens, erstens, zweitens, drittens und ertsens-zweitens-drittens.
  • Die Pfleger-innen und die Pfleger/innen fragen sich: /, "/", "-" oder -?

Quellen

Weiterlesen



Wir wollen die Barrieren, die das SimDeC mit seinen Artefakten bietet systematisch reduzieren. Dazu sollen Sprachassistenten Schritt für Schritt das Handeln Anleiten.
Erstes Szenario kann hier die Kaffee-Zubereitung sein:
  • Schritt 1: Anleitungen erstellen
  • Schritt 2: Anleitungen überprüfen
  • Schritt 3: Anleitungen verbessern
  • Schritt 4: Anleitungen als Vorlage für den Sprachassistenten setzen (Einzelne Anleitung umsetzen)
  • Schritt 5: Strukturen für das systematische Ergänzen von Anleitungen entwickeln
  • Schritt 6: Vorab-Anfrage für Cluster "Möchtest Du Filterkaffe, Espresso oder Cappuchino" setzen
  • Schritt 7: Strukturen für das systematische Ergänzen von Strukturen entwickeln

Weiterführende Konzepte

  • Die Handlungsanleitung adressiert auf Wunsch verscheidene Medien (Text, Sprache, Bild, Video)
  • Die Handlungsanleitung adressiert verschiedene Ausführlichkeit
    • Welcher Schritt kommt als nächstes?
    • Welche Parameter (Kaffeemenge, Zeit, etc.) sind für einen Schritt wichtig?
    • Wie genau wird ein Schritt ausgeführt?
  • Die Handlungsanleitung adressiert verschiedene Kompetenzstufen
    • Anfänger: Lineare Schritt-Für-Schritt-Anleitung
    • Fortgeschrittene: Tipps und Anregungen zu Variationen
    • Experte: Die Handlungsanleitung dokumentiert neue Variationen
  • Die Handlungsanleitung evaluiert das Ergebnis, z.B. via Aroma-Rad.
  • Die Handlungsanleitung gibt Tipps (z.B. Warum habe ich zu wenig Crema? Wie gelingt der Milchschaum)?
  • Die Handlungsanleitung löst Probleme (z.B. eine Lampe blinkt, Wassertank ist leer, ich bekomme keine Crema)
Weiterlesen

Wie können Sprachassistenten bei der Einnahme von Medikamenten unterstützen?
  • Die Assistenz erinnert an die Einnahme der Medikation zum richtigen Zeitpunkt.
    • Assistenz stellt sicher, dass er die richtige Person anspricht
    • Die Assistenzstellt sicher, dass die richtigen Arzneimittel vorliegen
    • Die Assistenzstellt sicher, dass sie in der richtigen Dosis vorliegen
    • Die Assistenzstellt sicher, dass sie in der richtigen Applikationsart vorliegen.
    • Die Assistenzdokumentiert die Einnahme der Arznei.
  • Die Assistenz gibt (nach Aufforderung, nach Wechsel einer Arznei, Aufdosierung, Ausschleichen Hinweise), z.B. zu
    • Veränderungen
    • Unerwünschter Wirkung
    • Wechselwirkung
  • Die Assistenz nimmt Fragen zum Medikament entgegen und gleicht diese mit Datenbanken ab.
  • Die Assistenz stellt Bezüge zwischen Symptomen und möglichen Wechsel- und Nebenwirkungen der Arzneien her.
  • Die Assistenz zeigt Bilder der Einzunehmenden Medikamente.
  • Die Assistenz scannt den QR-Code bzw. BarCode auf der Verpackung und gibt Information zu den Medikamenten.
  • Die Assistenz begleitet beim richten von Tropfen
Weiterlesen

Die Sprachassistenz liest Texte und Bücher (die z.B. öffentlich verfügbar sind, Projekt Gutenberg) vor.
  • Die Sprachassistenz passt Lesegeschwindigkeit und Betonung den Bedürfnissen der Person an.
  • Die Sprachassistenz wechselt die Stimme entsprechend der Charaktere (z.B. in Theaterstücken)
Weiterlesen

Unsere gebündelte Erfahrung dokumentieren wir im Furhat-Tutorial
Zum Programmieren eines ersten Skills empfehlen wir Blockly Weiterlesen

Weiterlesen

Weiterlesen

  • Welche Risiken in Bezug auf Datenschutz und die informationelle Selbstbestimmung müssen bewertet werden?
  • Welche Risiken in Bezug auf Finanzen gibt es (Einkäufe auslösen, Trickbetrug, ...)
  • Welche Risiken in Bezug auf Sensorik gibt es?
  • Welche Risiken in Bezug auf Aktorik gibt es? (Einbindung von Motorschloss, Schaltaktoren etc.)
Weiterlesen

Informationelle Selbstbestimmung

  • In welchen Fällen wird Ton lokal verarbeitet, in welchen Fällen in der Cloud (auf wessen Servern?)
    • Werden Key-Words analysiert?
    • Wird die Semantik analysiert?
    • Wird die Tonlage/Emotion analyisiert?
    • Analysieren auch Menschen?
  • Sind Kameras verbaut? In welchen Fällen wird visuelle Information (Helligkeit, Bilder, Videos) lokal oder in der Cloud verarbeitet?
    • Werden Gesten analysiert?
    • Wird Mimik analysiert?
    • Wird Anwesenheit analysiert?
    • Analysieren auch Menschen?
  • Welche weiteren Sensoren sind beteiligt?
    • Schalter/Buttons
    • Touch-Displays
    • Helligkeit
Weiterlesen

An dieser Stelle sammeln wir Ideen und Impulse für Anleitungen
  • Kaffeezubereitung mit den einzelnen Kaffeemaschinen
  • Was ist zu tun, wenn ich das SimDeC betrete?
  • Was ist zu tun, wenn ich das SimDeC verlasse?
  • Fragen und Informationen zu den Artefakten im SimDeC abrufen (Webcams, Kamerasysteme, ...)
  • Anleitung zum Umgang mit Alarmen
  • Fragen zur Automatisierung (Lichtsteuerung, Assistenzsysteme)
Formate:
  • Sprachansagen
  • Illustration mit Texten
  • Illustration mit Bildern
  • Illustration mit Videos
Vorbilder
  • Kochrezept-Anleitungen, Cookbooks
  • Datenbank-Abfragen
Weiterlesen

Kann eine NFC-Schnittstelle angebunden werden, um auch ohne Sprachsteuerung ein einfach zu bedienendes Internetradio zu bekommen?
Welche Aktivitätsdaten werden dann dennoch gesammelt? Weiterlesen

Welche Schnittstellen bringt das Sprachassistenzsystem mit sich? In wie fern können dadurch Sensoren und Aktoren direkt angesteuert werden? Welche Integrationen gibt es?
  • Welche Sensoren können ausgelesen werden?
  • Welche Sensoren sollen im SimDeC ausgelesen werden?
  • Welche Aktoren können angesprochen werden?
    • z.B. Ikea/Hue und Amazon Alexa?
  • Welche Aktoren sollen im SimDeC angesprochen werden?
Weiterlesen

Welche Programme (Skills, Actions, ...) sind im Bereich der Sprachsteuerung verfügbar oder in Entwicklung?
  • Im Bereich Dementia Care
  • Im Bereich der (häuslichen) Pflege
  • Im Bereich der Betreuung
Weiterlesen