Pour nourrir et améliorer les modèles d'IA vocales, plusieurs initiatives sont en cours pour collecter des voix en français.
En manque de sons pour entraîner leurs modèles d'intelligence artificielle (IA), les entreprises et labos français de techniques vocales (« voicetech ») vont lancer une campagne pour demander aux locuteurs francophones de donner, gratuitement, un peu de leur voix, a expliqué à l'AFP Karel Bourgois, président du Voice Lab. Une trentaine d'acteurs du secteur ont mis leur force en commun dans cette association pour réunir leurs jeux de données, ou « datasets » : des milliers d'heures de voix enregistrées, indispensables pour nourrir et améliorer des modèles d'IA vocales.
« Ensemble, nous avons réuni 9 000 heures. Mais nous sommes des start-up et PME face à des mastodontes comme Microsoft ou Google, qui avec YouTube dispose de millions d'heures. En France, les datasets sont peu nombreux et souvent sans licence pour usage commercial, d'où la difficulté à entraîner les IA. Récemment, une jeune chercheuse a passé deux ans à juste constituer ses données », a déploré l'entrepreneur, également fondateur de la start-up Voxist.
Pour aller plus loin, le Voice Lab, en partenariat avec la Fondation Mozilla, va contribuer à relancer la collecte de voix en français sur le site Common Voice, où chacun peut s'enregistrer en lisant du texte. Et, en septembre, il va lancer une campagne pour une nouvelle version de cet outil, « qui va collecter des voix plus naturelles, en proposant de répondre à des questions ».
Lire aussi : La recherche sur l'IA, un sujet qui divise
Autre piste, avec le laboratoire Human-Num, le projet « écouter parler » : un camion qui parcourt la France pour enregistrer des voix, plus diverses que les voix de radios ou de télés. Le Voice Lab discute aussi avec Radio France, France Télévisions et l'INA, mais se heurte au flou juridique concernant la notion d'usage à des fins d'entraînement des IA.
En 2021, le Voice Lab a remporté un appel à projet public et obtenu 4,7 millions d'euros sur cinq ans pour mutualiser les données vocales, créer des modèles en commun, exposer les services de ses membres, à des visées de recherche ou commerciales.
Secteur en plein essor, révolutionné par l'IA, les « voicetech » comprennent la reconnaissance et la synthèse vocale, l'analyse des émotions, l'identification des locuteurs, la transcription orale de textes, l'élimination des accents ou encore les imitations et transformation de la voix, y compris en temps réel. Ces techniques intéressent le grand public tout comme des grands groupes qui veulent utiliser la voix comme identifiant ou automatiser des centres d'appels. En janvier, Microsoft a présenté VALL-E, modèle d'IA qui peut imiter une voix à partir de 3 secondes d'enregistrement.