Zum Inhalt

Untersuchungen zur hochqualitativen, effizienten Sprach- und Musikkodierung

Ausgeklügelte Technologien der Sprach- und Musikkodierung sowie -kompression durchdringen verschiedene Bereiche der Mensch-Maschine-Interaktion, der menschlichen Kommunikation sowie das Design von Nutzerschnittstellen, z. B. im Smartphone, Tablet oder Webkonferenzsystem.

In verschiedenen Teilprojekten untersuchen Prof. Dr.-Ing. Oliver Jokisch und Dipl.-Ing. Michael Maruschke gemeinsam mit Mitarbeitern und Studierenden moderne Audio-Kodierungsverfahren (Codecs) bezüglich anwendungsnaher Herausforderungen – z. B. beim Einsatz in der Webbrowser-gestützten Echtzeitkommunikation (WebRTC) oder in der Mobilkommunikation über ein VoLTE-Netzwerk. Während bislang unterschiedliche Codecs für die Sprach- und Musik-Kommunikation benutzt wurden, sind aktuelle Kodierungsverfahren  wie Opus oder Enhanced Voice Services (EVS) universell für High-Definiton Voice (HD-Voice) und Musik-Kommunikation einsetzbar. Kooperationspartner sind u. a. die T-Labs der Deutschen Telekom, die SwissQual (ein Unternehmen der Rhode & Schwarz-Gruppe), das Polizeiverwaltungsamt (PVA) Sachsen sowie die Otto-von-Guericke-Universität Magdeburg.
Ein wesentlicher Teil der Experimente konzentriert sich auf Aspekte von Quality of Service (QoS) und Quality of Experience (QoE), um Verbesserungsmöglichkeiten der Codecs bezüglich eines möglichst geringen Kodierungsfehlers sowie einer hohen Verständlichkeit und Natürlichkeit zu eruieren und Empfehlungen bei der anwendungsspezifischen Auswahl und Parametrisierung von Codecs zu generieren. Dabei werden umfangreiche Hörtests mit vielen Versuchspersonen und unterschiedlichen Sprach- und Musikproben unter wechselnden Einsatzbedingungen durchgeführt. Ergänzend erfolgen instrumentelle Messungen zur Vorhersage der erwarteten Hörqualität mit dem Verfahren Perceptual Objective Listening Quality Assessment (POLQA), bei denen auch die Grenzen des objektivierten Messansatzes thematisiert werden. 
Abhängig vom konkreten Stimulus, beispielsweise unterschiedlich betonter oder emotioneller Sprache, variiert das Qualitätsurteil. Ähnliche Effekte lassen sich bei verschiedenen Musikstilen oder Mischformen aus Gesang und Instrumentalmusik beobachten. Daraus lassen sich plattform- und szenarienabhängige Parametrisierungsempfehlungen in der Sprach- und Musikkodierung ableiten.
Weitere Experimente betreffen Prozessparameter wie den Echtzeitfaktor oder die Latenzzeit bei der Codierung und Transcodierung, die u. a. eine wichtige Rolle in der geplanten Hochgeschwindigkeits-Kommunikation der fünften Mobilfunkgeneration (5G) spielen.
Darüber hinaus wird eine Hardware mit einer universellen Audio- und Datenschnittstelle zur Sprachqualitätsmessung über diverse Endgeräte für Behördennetze entwickelt und optimiert.

 

Aktuelle Publikationen:

Jokisch, O.; Maruschke, M.: Audio and speech coding/transcoding in web real-time communication, International Symposium on Human Life Design (HLD 2016), Kanazawa/Japan. http://www.jaist.ac.jp/hld/IntlSymp2016/paper/HLD2016-COM03.pdf

Jokisch, O.; Maruschke, M.; Meszaros, M.; Iaroshenko, V. : Audio and speech quality survey of the opus codec in web real-time communication, ESSV-Konferenz 2016, Leipzig, S. 254-262. http://www1.hft-leipzig.de/ice/essv2016/files/31%20-%20JokischMaruschke-S.254-262.pdf

Meszaros, M.; Maruschke, M.: Verhaltensanalyse von Einplatinencomputern beim Transcoding von Echtzeit-Audiodaten, ESSV-Konferenz 2016, Leipzig, S. 237-245. http://www1.hft-leipzig.de/ice/essv2016/files/20%20-%20MeszarosMaruschke-S.237-245.pdf

Lösch, E.; Zimmermann, A.; Schenk, A.; Jokisch, O.: Entwicklung einer universellen Audio- und Datenschnittstelle zur Sprachqualitätsmessung in digitalen Funknetzen, ESSV-Konferenz 2016, Leipzig, S. 246-253. http://www1.hft-leipzig.de/ice/essv2016/files/35%20-%20LoeschZimmermannSchenkJokisch-S.246-253.pdf

Prof. Dr.-Ing. Oliver Jokisch leitet an der HfTL den Fachbereich Nachrichtentechnik und lehrt seit 2012 im Fachgebiet Signal- und Systemtheorie. Sein Forschungsportfolio umfasst dabei Themen der Audio – und Sprachsignalverarbeitung.

Dipl.-Ing. Michael Maruschke ist seit  2004 als wissenschaftlicher Mitarbeiter in der HfTL im Fachbereich Nachrichtentechnik tätig. Neben der Lehre ist die Forschungs-Kooperation mit den T-Labs und ausländischen Partner-Universitäten auf dem Gebiet der zukünftigen Telekommunikationsnetze sein Arbeitsschwerpunkt.

 

Weitere Informationen:

 

www.hft-leipzig.de/fileadmin/image_hftl/Institut_TKI/31_-_JokischMaruschke-S.254-262_1_.pdf

 

www.jaist.ac.jp/hld/IntlSymp2016/paper/HLD2016-COM03.pdf

 

rd.springer.com/chapter/10.1007%2F978-3-319-23132-7_43

 

www.hft-leipzig.de/fileadmin/image_hftl/Institut_TKI/20_-_MeszarosMaruschke-S.237-245.pdf

 

<