R&D
Als kompetenter und innovativer Dienstleister versuchen wir täglich, die Grenzen von Sprache zu überwinden.
Acapela suchen
Als kompetenter und innovativer Dienstleister versuchen wir täglich, die Grenzen von Sprache zu überwinden.
Acapela Group arbeitet aktiv an Deep Neural Networks (DNN) und wir sind sehr enthusiastisch und stolz darauf, die ersten Erfolge unserer Forschung auf diesem faszinierenden Gebiet zu präsentieren, das neue Möglichkeiten für Sprachschnittstellen schafft.
Humanoide intelligente Begleiter, mehrsprachige Konversationen, gesungene Sprachausgabe, ausdrucksstarkes Lesen und Übertragen von Emotionen, Internet der Dinge, Biometrie und multimodale Mensch-Maschine-Interaktion sind einige der Bereiche, mit denen wir uns seit über einem Jahrzehnt ernsthaft beschäftigen und mit Experten weltweit zusammenarbeiten.
2021– FABLANG
2018– VIADUCT
2018– VOICI
2017– EMPATHIC
2017– ARCHIBALD
2014 – ChaNTeR
2013 – PATH
2013– I-Treasures
2012 – D-BOX
2012 – Mardi
2012 – Content4All
2011 – DIYSE
2010– EMOSPEECH
2010– BIOSPEAK
2010 – ROMEO
2009 – GVLEX
2009 – FRANEL
2008 – HMMTTS
2007 – INDIGO
2005 – BOON Companion
2004 – DIVINES
2003 – E! 2990- MAJORCALL Majordome CRM Call Centers
2003 – STOP
2003 – NORMALANGUE
2003 – ULYCES
VIADUCT (Voice Interface for Autonomous Driving based on User experienCe Techniques) ist ein neues Projekt des Pôle de compétitivité MecaTech, 23. Projektaufruf der Region Wallonien. Dieses Projekt zielt darauf ab, eine multimodale, adaptive, sprachzentrierte Mensch-Maschine-Schnittstelle für das Fahren von teilautonomen Autos zu entwerfen, zu entwickeln und zu validieren, mit einem Fokus auf Ältere Menschen.
Das aus dem Projekt VIADUCT resultierende Produkt besteht aus einer multimodalen, adaptiven und zentrierten Mensch-Maschine-Schnittstelle auf Basis von Sprachtechnologien für das Fahren teilautonomer Fahrzeuge (MultiModal Voice-centric HMI).
In diesem Produkt sind zwei innovative technologische Bausteine integriert:
– Ein multimodaler Konversationsagent, der auf neuen Sprachtechnologien basiert, die für Fahrzeuge optimiert sind – automatische Spracherkennung (ASR) und Text-To-Speech (TTS). Dieser Agent organisiert die effektive Kommunikation zwischen dem Fahrer (oder einem Beifahrer) und dem Fahrzeug und ist in der Lage, sich an das Profil des Fahrers und insbesondere an ältere Menschen anzupassen, wobei die Abnahme ihrer visuellen und auditiven Fähigkeiten berücksichtigt wird.
– Ein Fahrerüberwachungssystem (DMS), das auf der von AW erhältlichen und vertriebenen Technologie basiert und mit Softwarefunktionen zur Erkennung des physischen, psychologischen, physiologischen und kognitiven Gemütszustands des Fahrers oder der Fahrgäste erweitert wird, um das Verhalten des Gesprächsagenten dynamisch anzupassen.
Die dynamische Anpassungsfähigkeit des VIADUCT HMI wird auf die Situation älterer Fahrer angewandt, ist aber auch in jeder anderen Situation anwendbar, in der sich die Kapazität des Fahrers verändern würde (Unwohlsein, Behinderung …).
Dieses Projekt wird dazu beitragen, unsere R&D-Bemühungen zu verwandten ASR- & TTS-Themen zu finanzieren und die Position von Acapela im Automotive-Sektor zu stärken. Zusätzlich ist eine neue Zusammenarbeit mit AW Europe für die Nutzung des Projekts bereits geplant und vorgesehen.
Dieses 3-Jahres-Projekt wird 6 Personen der Acapela Group beschäftigen (2 zusätzliche Stellen sind vorgesehen), um die französische Sprache zu entwickeln:
Das Projekt VIADUCT ist das Ergebnis eines Aktionsplans, der von AW Technical CEnter und der Acapela Group entwickelt wurde, um die Herausforderungen von Sprachschnittstellen in Autos anzugehen. Mit ihrer Expertise in Automobiltechnologien, Fahrzeuginformationssystemen, künstlicher Intelligenz und Sprachtechnologien haben AWTCE und Acapela die besten in Wallonien verfügbaren Kompetenzen für die Realisierung dieses Projekts mobilisiert:
Das Projekt VOICI (VOIce Crew Interaction) zielt auf die Entwicklung eines intelligenten Sprach-Crew-Interaktionssystems und ist Teil des H2020 Programms.
“VOICI” ist Teil von “Clean Sky 2” (CS2), das auf die europäische Luftfahrtforschung und -innovation abzielt und die globale Luftfahrtindustrie “zukunftssicher” machen soll, d. h. sichere, nahtlose und nachhaltige Luftverkehrsmobilität bereitzustellen, um die Bedürfnisse der Bürger zu erfüllen. Die erste Ausschreibung von CS2 umfasst 29 Themen und verfügt über ein Gesamtbudget von 205 Mio. € aus Horizon 2020.
Innerhalb des 6. Aufrufs von Clean Sky 2 zielt das Projekt Voice Crew Interaction (VOICI) darauf ab, die Technologie zu entwickeln, die ein intelligentes Voice-Crew-Interaction-System als “natürlichen Crew-Assistenten” in einer Cockpit-Umgebung bis zu TRL 3 implementiert.
Das Hauptziel des Projekts ist es, einen Proof-of-Concept-Demonstrator eines natürlichen Crew-Assistenten bereitzustellen, der in der Lage ist, die gesamte Kommunikation im Cockpit, entweder zwischen den Crew-Mitgliedern oder zwischen Crew und ATC, zu hören, Sprachinhalte zu erkennen und zu interpretieren, mit der Crew zu interagieren und Crew-Anfragen zu erfüllen, um so die Aufgaben der Crew zu vereinfachen und die Arbeitsbelastung zu reduzieren.
Der Themenleiter hat die Elemente Tonaufnahme, Spracherkennung und künstliche Intelligenz als die drei Haupttechnologiekomponenten festgelegt, aus denen das System bestehen soll, das spezifische Anforderungen wie Robustheit gegen laute Umgebung, hohe Erkennungsrate und Anfrageninterpretation erfüllen soll. Es wird eine Audio-Evaluierungsumgebung entwickelt, die die Evaluierung der Tonaufnahme-/ Spracherkennungssysteme und des natürlichen Crew-Assistenten nach vom Themenleiter vorgegebenen Evaluierungsszenarien ermöglicht.
Acapela wird an der Entwicklung einer spezifischen Stimme für die Cockpit-Umgebung arbeiten, um der Besatzung klare und verständliche Sprachinformationen zu übermitteln, wobei verschiedene Technologien zum Einsatz kommen: CTS, TTS, DNN.
Das Projekt Empathic konzentriert sich auf personalisierte virtuelle Coaches, die ältere Menschen dabei unterstützen, unabhängig in und um ihr Zuhause zu leben. Die Acapela Group arbeitet an der Sprachsynthese, um den Benutzern eine fortschrittliche, auf Deep Learning basierende Sprachschnittstelle zu bieten.
Das EMPATHIC Research & Innovation Projekt wird neue Paradigmen und Plattformen erforschen, entwickeln, erkunden und validieren und damit den Grundstein für zukünftige Generationen von personalisierten virtuellen Coaches legen.
Das Projekt ist Teil des Horizon 2020 -Programms, dem größten EU-Forschungs- und Innovationsprogramm aller Zeiten, für das über einen Zeitraum von sieben Jahren (2014 bis 2020) fast 80 Milliarden Euro zur Verfügung stehen. Es besteht aus 10 Partnern, die im Bereich der Gesundheitswartung tätig sind: Endnutzerorganisationen, Technologieentwickler, Hochschul- / Forschungsinstitute und Systemintegratoren.
Innovative multimodale Gesichtsanalysen, adaptive Sprachdialogsysteme und natürlichsprachliche Schnittstellen sind Teil dessen, was das Projekt erforschen und entwickeln wird, um pflegebedürftigen, alternden Menschen zu helfen und ihre Karriere zu fördern.
Acapela wird eine neue TTS-Technologie auf Basis von Deep Neural Networks und angepasster expressiver Sprache bereitstellen, die die Ausdrucksmöglichkeiten des Dialogsystems erweitert und an die Emotionen und Stimmung des Benutzers anpasst, um die Glaubwürdigkeit, Natürlichkeit und Anpassungsfähigkeit der Interaktion zu verbessern. Vier Sprachen werden angesprochen: Englisch, Französisch, Spanisch und Norwegisch.
Das Projekt wird nicht-invasive Remote-Technologien nutzen, um physiologische Marker emotionaler Zustände in Echtzeit für adaptive Online-Reaktionen des Coaches zu extrahieren und die ganzheitliche Modellierung von verhaltensbezogenen, rechnerischen, physischen und sozialen Aspekten eines personalisierten, expressiven virtuellen Coaches voranzutreiben.
Es wird eine Demonstrations- und Validierungsphase mit klar definierten realistischen Anwendungsfällen beinhalten. Der Schwerpunkt liegt auf evidenzbasierter, benutzervalidierter Forschung und Integration von intelligenten Benutzer- und Kontexterkennungsmethoden durch Sprach-, Augen- und Gesichtsanalyse, intelligente Heuristiken (komplexe Interaktion, Erkennung von Benutzerabsichten, Ablenkungseinschätzung, Systementscheidung), visuelles und gesprochenes Dialogsystem und Systemreaktionsfähigkeiten. Durch messbare Endbenutzervalidierung, die in 3 verschiedenen Ländern (Spanien, Norwegen und Frankreich) mit 3 unterschiedlichen Sprachen und Kulturen (plus Englisch für R&D) durchgeführt werden soll, werden die vorgeschlagenen Methoden und Lösungen Nützlichkeit, Zuverlässigkeit, Flexibilität und Robustheit sicherstellen.
ARCHIBALD (ARCHIves Breeding by Automated Language Description)
Dieses Projekt zielt darauf ab, die Art und Weise, wie wir digitale audiovisuelle Inhalte nutzen, zu intensivieren, indem ihre Verfügbarkeit beschleunigt wird. Während es sich auf die wichtigsten Bedürfnisse des audiovisuellen Sektors konzentriert, sieht das Archibald-Projekt die Sonuma-Archive als eine Möglichkeit zur Inkubation von Projekten, die die Erwartungen von Anwendungsbereichen wie Sprachtechnologien, Forschung und Bildung erfüllen.
Diese Ziele werden erreicht durch die Kombination von führender Expertise in Sprachtechnologien, die in Wallonien verfügbar sind (Acapela und Cental), der professionellen Erfahrung, den Bedürfnissen der Zielnutzer (Medien, Acapela, Sonuma SA, Universitäten und Gymnasien, etc.) und den Audio/Text- und Metadaten-Inhalten, die mit den 140.000 Stunden an audiovisuellen Aufzeichnungen bereits von Sonuma SA digitalisiert wurden.
Das Ergebnis wird in der Lieferung von technologischen Modulen und zwei Pilotexperimenten resultieren. Der wissenschaftliche Kontext umfasst mehrere Anwendungsbereiche: Audio, automatische Sprachverarbeitung und Indizierung/Klassifizierung von digitalen Dokumenten.
Die jüngste Entwicklung von Deep Neural Network-Technologien hat den Einsatz dieser Technologien in den genannten Bereichen ermöglicht.
Die Ziele dieses Projekts sind die folgenden:
Diese technologischen Module sind wichtig für die industriellen Entwicklungen von Sonuma SA und Acapela sowie für die internationale Positionierung der Wallonie als wichtiger digitaler Akteur.
Das Ziel des Projekts ChaNTeR (Chant Numérique Temps-Réel auf Französisch: Digitaler Echtzeitgesang) ist es, ein qualitativ hochwertiges System für die Synthese von Liedern zu erstellen, das von der Allgemeinheit genutzt werden kann. Das System wird den Text eines Liedes singen und der vorgestellte Synthesizer wird in zwei Modi arbeiten: “Lied aus Text” oder “virtueller Sänger”. Im ersten Modus kann der Benutzer einen Text eingeben, der zusammen mit einer Partitur (Zeiten und Tonhöhen) gesungen werden soll, und die Maschine wird ihn in Klang umwandeln. Im zweiten, dem ‘virtuellen Sänger’-Modus, steuert der Benutzer den Song-Synthesizer in Echtzeit über spezielle Schnittstellen, genau wie beim Spielen eines Instruments.
Um den Synthesizer zu realisieren, wird das Projekt fortschrittliche Stimmentransformationstechniken, einschließlich der Analyse und Verarbeitung der Parameter des Vokaltrakts und der Glottisquelle, mit dem neuesten Stand des Know-hows über die Auswahl von Einheiten für die Sprachsynthese, regelbasierten Gesangssynthesesystemen und innovativen Schnittstellen zur Gestensteuerung kombinieren. Das Projekt konzentriert sich auf die Erfassung und Reproduktion verschiedener Gesangsstile (z. B. lyrisch/klassisch, populär/liedhaft).
Es wird ein prototypisches System für die Gesangssynthese entwickelt, das von den Projektpartnern genutzt werden kann, um Produkte mit synthetischer Gesangsstimme und Gesangsinstrumenten anzubieten, die derzeit noch fehlen, oder um die Funktionen der derzeit bestehenden Produkte zu verbessern. Das Projekt wird Musikern und Interpreten einen neuen künstlerischen Umgang zu synthetisiertem Gesang bieten, neue Gestaltungsmittel, die interaktive Erfahrungen mit einer gesungenen Stimme ermöglichen.
ANR (The French National Research Agency), LIMSI, IRCAM and DUALO
Menschen mit Autismus haben erhebliche Kommunikationsprobleme, die ihre Integration in die Gesellschaft untergraben. Autismus ist eine schwere und anhaltende neurobiologische Behinderung.
Die Vielfalt der Bedürfnisse jeder Person mit Autismus bringt den Bedarf an flexiblen und individualisierten Kommunikationswerkzeugen mit sich. PATH zielt darauf ab, Menschen mit Autismus, Familien und Therapeuten maßgeschneiderte Werkzeuge zur Verfügung zu stellen, um Kommunikation über eine kollaborative Plattform zu erzeugen oder zu verbessern.
PATH kombiniert die technologische Dimension (Sprachsynthese – Erkennung – Augenbewegungs-Tracking – eingebettete Technologien) mit einer partizipativen Dimension (Cloud Computing – Sharing – “kundenspezifische” Anpassung).
Mons University (SUSA), ULG, TRIPTYK, MULTITEL
Immaterielle Schätze – Das immaterielle Kulturerbe erfassen und das seltene Know-how lebender menschlicher Schätze lernen.
Kulturelle Ausdrucksformen sind nicht auf Architektur, Denkmäler oder Sammlungen von Artefakten beschränkt. Er umfasst auch fragile immaterielle Lebensäußerungen, die Wissen und Fähigkeiten beinhalten. Zu solchen Ausdrucksformen gehören Musik, Tanz, Gesang, Theater sowie menschliche Fähigkeiten und Handwerkskunst. Diese Manifestationen menschlicher Intelligenz und Kreativität bilden unser immaterielles Kulturerbe (ICH).
Das Hauptziel von i-Treasures ist es, eine offene und erweiterbare Plattform zu entwickeln, um den Zugang zu ICH-Ressourcen zu ermöglichen, den Wissensaustausch zwischen Forschern zu ermöglichen und zur Weitergabe von seltenem Know-how von Living Human Treasures an Auszubildende beizutragen. Zu diesem Zweck will das Projekt über die bloße Digitalisierung von kulturellen Inhalten hinausgehen.
Durch die Kombination von konventionellen Lernverfahren und fortschrittlichen Diensten, wie z.B. Singing Voice Synthesis und sensomotorisches Lernen durch eine interaktive 3D-Umgebung, soll das i-Treasure neue Wege in der Ausbildung und Wissensvermittlung von ICH beschreiten.
Zentrum für Forschung und Technologie Hellas, Université Pierre et Marie Curie , Centre National de la Recherche Scientifique, Université de Mons, Consiglio Nazionale delle Richerche, University College London, Turk Telekom Company, University System of Maryland, Aristotle University of Thessaloniki, University of Macedonia.
Eine generische Dialogbox für mehrsprachige konversationelle Anwendungen.
Das Hauptziel von D-Box ist die Entwicklung einer Architektur zur Unterstützung der Zusammenarbeit zwischen Benutzern durch einen mehrsprachigen konversationellen Assistenten, der in eine interaktive Anwendung eingebettet ist.
Das Hauptziel von D-Box ist es, eine innovative Architektur für Konversationsassistenten zu entwickeln und zu testen, deren Zweck es ist, die mehrsprachige Zusammenarbeit zwischen Benutzern an einem gemeinsamen Problem in einer interaktiven Anwendung zu unterstützen. Der interaktive Assistent wird durch die Vermittlung der Kommunikation eine maschinengeschriebene und/oder gesprochene Zusammenarbeit in der Muttersprache der Benutzer ermöglichen: alle Benutzerinteraktionen werden durch den mehrsprachigen Assistenten von D-Box übertragen.
Mipumi, IDIAP, KOMEI, Saarland University
In diesem Projekt beabsichtigen wir, die Mensch-Computer-Interaktion in situationsgerechter Weise zu untersuchen.
Wir glauben, dass die Interaktion eine physische Realisierung haben muss, die in der realen Welt verankert ist, um natürlich und effektiv zu sein. Um interaktive Systeme zu verkörpern, schlagen wir die Verwendung von humanoiden Robotern vor. Roboter, ausgestattet mit Wahrnehmungen, aber auch Mitteln, um in der Umgebung zu agieren, erlauben die Integration eines physischen Kontextes in die Interaktion für die Maschine wie auch für den Menschen.
SUPELEC, LIA, LAAS
Das Hauptziel des Content4ALL-Projekts ist die Verbesserung des Text-to-Speech-Synthesesystems für lange Texte (Storytelling – Zeitungen).
Das Grundkonzept hinter diesem Projekt ist es, jedem, auch Menschen mit Sehbehinderungen (Älteren oder Blinden), den Zugang zu den gleichen Informationen zu ermöglichen.
Multitel
Das Do-it-Yourself Smart Experiences Projekt (DiYSE) zielt darauf ab, normalen Menschen die Möglichkeit zu geben, auf einfache Weise Anwendungen in ihren smarten Wohnumgebungen sowie im öffentlichen IoT-Raum zu erstellen, einzurichten und zu steuern. So können sie bewusste Dienste und smarte Objekte nutzen, um hochgradig personalisierte, soziale, interaktive und fließende Erfahrungen zu Hause und in der Stadt zu erhalten.
Die Partner kommen aus Frankreich, Belgien, Spanien, Griechenland, Türkei, Finnland und Irland:
Alcatel-Lucent Bell Labs France, AnswareTech, Archos, Atos Origin, Katholische Universität Leuven – Distrinet Katholische Universität Leuven – CUO, ENSIIE, FeedHenry, Finwe, Forthnet, Geniem, Geosparc, Information & Image Management Systems (IMS), Institut TELECOM Sud Paris, Mobilera, Neotiq, Philips Innovative Applications, Pozitim, Rinnekoti-Säätiö, Tecnalia-European Software Institute (ESI), Tecnalia-Robotiker, Thales Communications, There Corporation, Turkcell Teknoloji , Universidad Politécnica de Madrid, University of Alcalá, University of Applied Sciences LAUREA, University of Mons, University of Oulu, University of Tampere, Videra, Vrije Universiteit Brussel – SOFT, Vrije Universiteit Brussel – SMIT, Vrije Universiteit Brussel – Starlab, VTT – Technical Research Centre of Finland, Waterford Institute of Technology, Wiktio.
Virtuelle Welten sind eine sehr neue Art der Kontaktaufnahme. Sie ermöglichen es den Benutzern, einen Avatar zu verkörpern, der sich in einer dreidimensionalen Darstellung eines realen oder imaginären Ortes weiterentwickelt, in dem sie normalerweise andere Benutzer treffen und mit ihnen interagieren können.
In diesem Fall erweitern solche Anwendungen digital das soziale Leben der Benutzer. E-Learning-Lösungen können so einfach erscheinen wie Formulare zum Ausfüllen oder mit Technologien aus dem Bereich der Computerunterhaltung entwickelt werden. Der letztere Typ von E-Learning-Lösungen ist als Serious Games bekannt. Sie zielen darauf ab, Bildungsinhalte in ein Spieldesign einzubinden, das es den Benutzern ermöglicht, aktiv zu lernen und ihre Fähigkeiten zu verbessern. Virtuelle Welten und Serious Games bieten eine gute technologische Antwort auf diese Herausforderung, da sie den Benutzern virtuelle Erfahrungen von realen Situationen vermitteln. Wenn die bestehenden Lösungen ein zufriedenstellendes Niveau der physischen Immersion erreicht haben, bestehen die nächsten Schritte darin, den Benutzern ein höheres Maß an Interaktion sowohl mit anderen Benutzern als auch mit den virtuellen Menschen, die die digitalen Umgebungen bevölkern, zu ermöglichen.
Heutigen Anwendungen fehlt es an verbalen und emotionalen Interaktionen. Das Füllen dieser Lücke würde der virtuellen Erfahrung einen höheren Grad an Realismus verleihen. Zum Beispiel sollten die Lippen und die Gesichtsanimation des Avatars nicht nur mit der Phrasierung, sondern auch mit der emotionalen Botschaft (Wut, Mitleid, etc.) kohärent sein. Daher sind gesprochene Interaktionen (in anderen Worten: Dialoge) ein wichtiger Aspekt, auf den man sich konzentrieren muss, um die Erfahrung der Benutzer zu verbessern. Genauer gesagt sollten synthetisierte Sprache und Gesichtsanimationen verbale und nonverbale Komponenten (hauptsächlich Emotionen) berücksichtigen, um die Intentionen des Sprechers vollständig darzustellen. Den Avataren der Benutzer, aber auch den virtuellen Menschen zu erlauben, mit Emotionen umzugehen, wird definitiv die Immersivität der virtuellen Welten und Serious Games verbessern.
INRIA Lorraine (Parole and Talaris), Artefacto
BioSpeak zielt darauf ab, die Open-Source-Software ALIZE zu verbessern, um ein kommerzielles Qualitäts-Toolkit für die Echtzeit-Validierung der Stimmbiometrie bei variablen Risikostufen zu generieren.
BioSpeak-Partnerunternehmen werden von modernsten Algorithmen zur Sprechervalidierung profitieren, die in ihre Produkte integriert werden. Das BioSpeak-Projekt zielt darauf ab, robuste und skalierbare Tools für Interactive Voice Response (IVR)-Systeme zu entwickeln, die in der Lage sind, Tausende von Kanälen parallel zu verarbeiten und dabei modernste Algorithmen zu nutzen. Diese Tools werden eine mehrsprachige Interoperabilität ermöglichen und sie werden so konzipiert sein, dass sie in sicherheits- und telefonieorientierten Umgebungen funktionieren.
In diesem Projekt werden biometrische Werkzeuge auf Basis von ALIZE entwickelt, einer Open-Source-Bibliothek, die für die Forschung und das Experimentieren mit Signalverarbeitungsalgorithmen und Statistiken für die biometrische Authentifizierung entwickelt wurde. Obwohl ALIZE recht vollständig ist, ist es noch nicht bereit für den Einsatz in einer groß angelegten kommerziellen Anwendung mit Echtzeit- und Mehrfach-Audiokanal-Verarbeitungsanforderungen.
Universität von Swansea,ValidSoft, Multitel, Calistel, Universität von Avignon
Romeo ist ein Projekt unter der Leitung des französischen Unternehmensclusters Cap Digital und wird von der Region Ile-de-France, der Generaldirektion für Wettbewerbsfähigkeit, Industrie und Dienstleistungen (DGCIS ex DGE) und der Stadt Paris finanziert.
Dieses 10-Millionen-Euro-Projekt wird mit bis zu 4,9 Millionen Euro bezuschusst. Das Ziel des Projekts ist die Entwicklung eines humanoiden Roboters, der als umfassender Assistent für Personen mit Autonomieverlust fungieren kann. Mit diesem Ziel vor Augen muss der Roboter in der Lage sein, mit den meisten vertrauten Objekten/Bewegungen zu interagieren (Öffnen und Schließen einer Tür, Greifen eines Glases, einer Flasche, eines Schlüsselbundes…). Aber er muss auch Menschen unterstützen, die sich in ihrer Wohnung bewegen müssen, und in der Lage sein, ihnen zu helfen, wenn sie auf den Boden fallen. Abgesehen von seinen physischen Fähigkeiten muss Romeo über eine sehr “menschenfreundliche” Schnittstelle verfügen, wobei Sprache und Gesten die wichtigsten Mittel zur Kommunikation mit dem Roboter sind. Er wird verstehen müssen, was zu ihm gesagt wird, einfache Gespräche führen und sogar die Absichten und Emotionen seines Gesprächspartners spüren, um daraus die Aktionen abzuleiten, die er ausführen soll.
ALDEBARAN, VOXLER, SpirOps, AsAnAngel, LISV, LIMSI, LAAS, CEA-LIST, Paris Telecom, INRIA, LPPA (college de france), Institut de la Vision
GV-LEX wird von der französischen Nationalen Agentur für Forschung (ANR) im Rahmen des Projekts “Inhalt und Interaktion” von 2009 gefördert. Mitglieder des Konsortiums sind ALDEBARAN Robotics (Inhaber des Projekts), Acapela, CNRS/LIMSI und Telecom Paris Tech. Ziel ist es, den Roboter NAO und den Avatar Greta in die Lage zu versetzen, mehrere Minuten lang Texte zu lesen, ohne den Zuhörer mit einer monotonen Computerstimme zu langweilen. Um dieses Ziel zu erreichen, schlagen wir vor, die Ausdruckskraft in die Sprachsynthese selbst einzubringen sowie die Vorteile des Roboters oder des virtuellen Menschen zu nutzen: Sie sind in der Lage, während des Sprechens ausdrucksstarke Gesten auszuführen.
Aldebaran Robotics , LIMSI , Telecom, Paris Tech
Franel ist ein innovatives Projekt im Sprachunterricht, das den Menschen in Westflandern, Wallonien und Frankreich (Nord / Pas-de-Calais) eine einzigartige Möglichkeit bietet, die Sprache des Nachbarn kennenzulernen. Konkret entstanden die Lernaktivitäten aus Berichten der regionalen Fernsehsender WTV (Westflandern), C9 (Nord-Pas-de-Calais) und NoTV (Hennegau) und drei Universitäten: KULeuven Campus Kortrijk auf der flämischen Seite, die Universität Lille III Charles de Gaulle auf der französischen Seite und die Polytechnische Fakultät von Mons in Wallonien.
K.U.Leuven Campus Kortrijk, Lille3 Charles De Gaulle, Faculté Polytechnique de Mons, WTV, C9, NoTélé, Televic, BLCC, VDAB, Forem, AVnet, ILT
Verständlichkeit und Ausdrucksstärke sind die Schlüsselwörter in der Sprachsynthese geworden. Hierfür hat ein System (HTS), das auf der statistischen Generierung von Sprachparametern aus Hidden-Markov-Modellen basiert, kürzlich seine potenzielle Effizienz und Flexibilität gezeigt.
Dennoch ist dieser Ansatz noch nicht ausgereift und wird durch die damit verbundene Brummigkeit eingeschränkt. Letztere Unannehmlichkeit ist zweifellos auf die parametrische Darstellung von Sprache zurückzuführen, die einen Mangel an Sprachqualität hervorruft. Der erste Teil dieser Arbeit ist daher der qualitativ hochwertigen Analyse von Sprache gewidmet. In Zukunft könnten auch Anwendungen durchgeführt werden, die auf die Sprachumwandlung und die ausdrucksstarke Sprachsynthese ausgerichtet sind.
FPMs
FP6- Europäisches Projekt: Interaktion mit persönlichkeits- und dialogfähigen Robotern. Eine Schlüsseltechnologie für die nächste Generation von Robotern für den Service-, Haushalts- und Unterhaltungsmarkt ist die Mensch-Roboter-Interaktion. Ein Roboter, der tagtäglich mit Menschen zusammenarbeitet – sei es in Pflegeanwendungen, im beruflichen oder privaten Kontext – benötigt interaktive Fähigkeiten, die über Tastaturen, Tastenklicks oder metallische Stimmen hinausgehen.
Für diese Klasse von Robotern ist die menschenähnliche Interaktivität ein grundlegender Teil ihrer Funktionalität. INDIGO zielt darauf ab, Mensch-Roboter-Kommunikationstechnologie für intelligente mobile Roboter zu entwickeln, die in bevölkerten Umgebungen arbeiten und Aufgaben erfüllen. Dabei wird das Projekt Technologien aus verschiedenen Bereichen einbeziehen und versuchen, Fortschritte in den jeweiligen Bereichen einzuführen, d.h. natürlichsprachliche Interaktion, autonome Navigation, visuelle Wahrnehmung, Dialogsysteme und virtuelle Emotionen.
Das Projekt wird die Mensch-Roboter-Kommunikation von zwei Seiten angehen: Indem Roboter in die Lage versetzt werden, natürliches menschliches Verhalten richtig wahrzunehmen und zu verstehen, und indem sie dazu gebracht werden, auf eine Weise zu handeln, die dem Menschen vertraut ist.
FORTH-ICS, Univ Edinburgh, Uni Albert Ludwigs von Freiburg, Universität Athen, Universität Genf, NEOGPS, HANSON ROBOTICS, Fondation Hellenic World, NCSR
Das Boon Companion Projekt zielt darauf ab, ein autonomes kognitives System (ACS) zu untersuchen und zu demonstrieren, das Wahrnehmung, logisches Denken und Lernen integriert. Das Interesse des Konsortiums an ACS ist durch den Wunsch motiviert, intelligente Begleiter und häusliche Assistenten zu entwickeln, die einige menschenähnliche kognitive Fähigkeiten aufweisen könnten (z. B. Anpassungsfähigkeit an den Interaktionskontext, Anpassungsfähigkeit an den Benutzer) und so an Akzeptanz gewinnen.
BERCHET, CEA, Wany Robotics, Eurecom, Generation 5, Thales, Philips, Sound Intelligence, Universität Gröningen, Universität Utrecht, CRIFA
Europäisches Projekt FP6-IST-2002-002034 DIVINES: Diagnostische und intrinsische Variabilitäten in natürlicher Sprache.
Das Ziel von DIVINES ist es, einige neue Erkenntnisse in Richtung erneuerter Merkmalsextraktions- und Modellierungstechniken zu entwickeln, die bessere Kapazitäten haben, insbesondere im Umgang mit intrinsischen Variabilitäten der Sprache. Zunächst werden die menschliche und maschinelle Leistung und die Auswirkung von intrinsischen Variabilitäten anhand eines Diagnoseverfahrens verglichen. Die Ergebnisse dieser Analyse werden dann für die gezielte Merkmalsextraktion sowie akustische und lexikalische Modellierung genutzt. Die Kompatibilität mit Techniken, die sich mit Rauschen befassen, und die Integration in aktuelle Systeme sind ebenfalls Teil der Ziele.
Das Projekt ist für das Ziel “Multimodale Schnittstellen” relevant, da es um eine genauere und anpassungsfähigere Erkennung von gesprochener Sprache geht. Dies ist zentral für das Konzept der multimodalen Mensch-Maschine-Interaktion, bei der der Sprachverstehensdienst wahrscheinlich eine unabhängige Komponente in einem modularen Design bleiben wird. Fortschritte in diesem Bereich könnten entscheidend sein, um die Vision der natürlichen Interaktivität zu verwirklichen.
THE ROYAL INSTITUTION FOR THE ADVANCEMENT OF LEARNING (MCGILL UNIVERSITY), FRANCE TELECOM SA, LOQUENDO SPA, UNIVERSITE D’AVIGNON ET DU PAYS-VAUCLUSE, INSTITUT EURECOM, CARL VON OSSIETZKY UNIVERSITAET OLDENBURG, POLITECNICO DI TORINO
Integration von Sprachtechnologie mit Kommunikation, Marketing und kundenbezogenen Diensten in einem einzigen komfortablen Prozess, der den sofortigen mobilen Zugriff auf wichtige Geschäftsinformationen ermöglicht.
MULTITEL ,Software 602, GVZ, Vecsys, ENST, Knowledge S.A., University Of Patras, , Harpax, Italy
Sprachdynamik und Stimmqualitätsanalyse für verbesserte Sprachsynthese.
Das STOP-Projekt zielt darauf ab, die Beziehung zwischen Sprachdynamik und Sprachqualität zu untersuchen, basierend auf selbstentwickelten Werkzeugen zur effizienten Trennung von Quelle und Trakt. STOP steht für “Synthèse Technologique Optimisée de la Parole” (Optimierte technologische Sprachsynthese).
Es zielt darauf ab, Sprachsynthese-Technologien durch die Ausnutzung der Sprachdynamik zu verbessern, ein Bereich, der bisher unerforscht war. Das Ziel des Projekts ist die Berechnung einer Software-Bibliothek zur Modifikation der Dynamik in der verkettenden Sprachsynthese (Diphone und Non Uniform Units). Dabei ist nicht nur die Modifikation der Prosodie vorgesehen, sondern es soll auch die Stimmqualität an die gewünschte wahrgenommene Phonation angepasst werden.
“5e Saison”, eine französische Gesellschaft, die sich mit digitaler Klangverarbeitung beschäftigt, (Frankreich).
Entwicklung des arabischen TTS-Systems, neue Stimme Bruno wurde in diesem Projekt aufgenommen. MixLP-Methode: Trennung von Signalquelle und Vokaltrakt, TCTS-Labor, das Labor für Schaltungstheorie und Signalverarbeitung der Faculté Polytechnique de Mons (FPMs)
Das Projekt zielt darauf ab, den französischen Beitrag zu den internationalen Normungsgremien im Bereich der Sprachtechnologien zu stärken und in den Normungsgremien der französischen industriellen und akademischen Gemeinschaft mitzuarbeiten und eine regelmäßige Information dieser Gemeinschaft zu organisieren.
Um dieses Ziel zu erreichen, bringt das Projektkonsortium sieben Partner aus der Industrie und akademischen Akteuren im Bereich der Sprachtechnologien in vier komplementären Blickwinkeln zusammen: vorgelagerte Forschung, Anbieter von Sprachtechnologien, Verkäufer von Sprachplattformen, Anbieter von Komponenten.
Dieses Teilprojekt ist in zwei Phasen unterteilt: Die erste ist allgemeiner und deckt alle relevanten Standards für die Sprachtechnologie für 1 Jahr ab und die zweite konzentriert sich auf den Hauptstandard, VoiceXML, über einen Zeitraum von 2 Jahren.
SIEMENS,TELISMA, IDYLIC, ST Microelectr., LORIA, ENST Paris
Das Projekt UlyCEs hatte zum Ziel, eine Telematikplattform für die Automobilindustrie zu entwickeln, die auf der Win CE-Technologie basiert.
EZOS, TWIN DEVELOPMENT, GILLET Automobile
Das Projekt EVASY widmet sich der Evaluation von Sprachsynthesesystemen für die französische Sprache.
Das Projekt wird vom französischen Forschungsministerium im Rahmen des Programms Technolangue finanziert.
Diese Evaluierungskampagne soll die ARC-AUPELF (jetzt AUF)-Kampagne von 1996-1999 erweitern, die einzige bisherige Evaluierungskampagne für Text-to-Speech-Systeme für die französische Sprache. Die EvaSy-Kampagne ist in drei Komponenten gegliedert:
– Auswertung des Grapheme-to-Phoneme-Moduls
– Bewertung von Prosodie und Expressivität
– globale Bewertung der Qualität der synthetisierten Sprache
ELDA (Evaluations and Language Resources distribution Agency), LIMSI, DELIC (Description Linguistique Informatisée sur Corpus) Forschungsteam, Université de Provence, CRISCO (Centre de Recherches Inter-langues sur la Signification en Contexte), ICP (Institut de la Communication Parlée), LIA (Laboratoire Informatique d’Avignon), MULTITEL ASBL
Sprechen Sie mit einem Experten!
Benötigen Sie weitere Informationen über unsere Lösungen? Lassen Sie uns reden 😊!
Wir helfen Ihnen gerne bei der Suche nach der richtigen Lösung für Ihr sprachfähiges Projekt.