AIMicrosoft Azure

Kurze Einführung in Microsoft AI

Veröffentlicht

Was kann Microsofts AI Platform?

Artificial Intelligence (AI), Neurale Netzwerke, Deep Learning und Machine Learning sind seit einigen Jahren Buzzwords in der IT-Szene. Nun bietet auch Microsoft auf seiner Cloud Platform Azure Funktionen aus all diesen Bereichen unter dem Stichwort Azure AI an. Einerseits bietet Azure AI bisher eine in der Cloud nutzbare AI-Infrastruktur für Unternehmen an, für die Entwickler mittels bereitgestellter AI-Tools sehr einfach und sehr produktiv AI-Lösungen erstellen können. Andererseits gibt es auch schon eine Reihe nutzbarer, vorab erstellter APIs, den Cognitive Services. Diese teilen sich on folgende Bereiche:

  • Bildanalyse
  • Spracheingabe
  • Sprache
  • Einblicke und Wissen
  • Suchen

Im folgenden möchte Ich anhand von einigen Services kurz erklären, was diese leisten können.

Was kann die Bildanalyse?

Die fertig als API bereitgestellte Bilderkennungsfunktion kann Bilder und Videos nach ihrem Inhalt analysieren, also Gegenstände, wie Häuser, Autos, Züge, Tische, Betten, etc., aber auch Frauen, Männer, Kinder und Tiere, sowie Aktivitäten wie etwas halten, an etwas ziehen, gehen, warten, stehen, sitzen, etc. erkennen und liefert so eine Information über den jeweiligen Bildinhalt des analysierten Bildes. Außerdem kann die Bildanalyse und berühmte Wahrzeichen, Piktogramme in Bildern und Handschriften identifizieren. Auch ist die Bilderkennung anpassbar um z.B. Bilder in einem Produktionsprozess zu analysieren und Fehler zu erkennen.

Wer Lust hat kann diesen Service auch selbst mal ausprobieren. Auf dieser Website von Microsoft kann man ein Bild angeben und bekommt eine Analyse des Bildes. Ich habe dies mal mit meinem Titelbild des Blogs gemacht und folgendes Ergebnis erhalten:

Quelle für die API:
Rückgabe der API:

Was kann die Gesichtserkennung?

Die Gesichtserkennung wiederum untersucht ein Gesicht auf einem Bild und vergleicht sie mit einem Gesicht auf einem anderen. Sie liefert dann einen Wert zurück, der aussagt, wie wahrscheinlich es ist, dass es sich auf beiden Bildern um die gleiche Person handelt. Weiterhin kann sie Personen in Bildern mittels Datenabgleich und maschinellem Lernen identifizieren und die Emotionen einer in Bildern oder Videos abgebildeten Person messen, die sich in dem Gesicht der Person zeigen, und Werte für die Anteile der verschiedenen Emotionen zurück liefern. Außerdem kann sie auch ähnliche Gesichter auf Bildern, ebenfalls mittels Datenabgleich, erkennen und Bilder mit ähnlichen Gesichtern gruppieren. Im Rahmen der Content Moderation kann die Gesichtserkennung weiterhin anstößige Inhalte nicht oder nur für volljährige Personen zulassen, übereinstimmende Inhalte zulassen oder blockieren und Feedback von menschlichen Moderatoren einbinden.

Auch diesen Service kann man auf einer Website von Microsoft testen – Auch hier ein kleiner Test mit einem Foto von mir:

Quelle für die API:
Rückgabe der API:

Was kann die Spracheingabe/Sprache?

Die Spracheingabe kann Sprache von einem Mikrofon, einer Audiodatei oder von in Echtzeit gestreamten Quellen erkannt und in Text umgewandelt werden. Sie kann ebenfalls zum Erstellen sprachgesteuerter Apps in mehreren Sprachen verwendet werden. Erfahrungsgemäß erweitert Microsoft die Anzahl verfügbarer Sprachen mit der Zeit, wie auch bei Cortana. Die Spracheingabe kann außerdem auch umgekehrt Text in Sprache umwandeln, zum Beispiel für Barrierefreiheit und Verbesserung der Usability von Apps. Die Sprachausgabe spricht bereits in 45 Sprachen mit den Usern, man kann dazu aus 75 verschiedenen Stimmen auswählen und diese mit Parametern für Geschwindigkeit, Tonhöhe, Lautstärke, Aussprache und zusätzliche Pausen modellieren. Genauso kann die Spracheingabe dazu verwendet werden, um Sprecher zu identifizieren, zum Beispiel für die Authentisierung beim Login. Zusätzlich kann man mit der Spracheingabe Sprache auch in bereits über 10 Sprachen übersetzen lassen. Dies dient beispielweise dazu, die Reichweite von Apps zu vergrößern oder Gespräche in normalen Gesprächssituationen zu transkribieren und zu übersetzen. Die Spracherkennung kann mit Parametern für Umgebungsrauschen, Ihr Szenario und Ihren Bereich, sowie anhand von bereits von Menschen übersetzten Daten angepasst werden.
Das Feature Sprache analysiert Texte und erkennt die Sprache, in der der Text verfasst ist, extrahiert Schlüsselbegriffe, analysiert die Stimmung, in der der Text verfasst ist bzw. die er vermittelt und gibt verknüpfte Entitäten, also Dinge, die im Text etwas miteinander zu tun haben, zurück. Microsoft bietet im Rahmen dieses Features auch die Rechtschreibprüfung von Bing! an, in einer einfachen Version z. B. für Websuchen und in einer komplexeren Version, die für anspruchsvolle Texte in Dokumenten geeignet ist. Auch das Feature Sprache kann außerdem (geschriebene) Texte übersetzen, es erkennt dabei automatisch bereits über 60 Sprachen und kann in verschiedene Alphabete übersetzen. Wenn man das Feature in Apps einsetzt, kann man User auch zwischen verschiedenen Übersetzungsalternativen einzelner Begriffe wählen lassen. Die API ist auch für andere Plattformen wie iOS oder Android einsetzen. Ein gutes Beispiel dafür ist die Microsoft Übersetzer App, die es im Apple Store, im Play Store und natürlich auch im Windows Store gibt!

Wer mehr erfahren möchte über Azure Cognitive Services kann gern in Haarlem im November vorbeischauen, ich werde dazu einen Slot 15.11. um 09:00 Uhr auf der Office 365 and SharePoint Connect 2018 halten.

 

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.