Les mathématiciens arméniens ont créé un service qui supprime les bruits de fond lors des appels

Société
09.01.2020

À l'aide de réseaux de neurones, Krisp détecte les bruits gênants (comme un enfant qui pleure ou le bruissement du papier) et les coupe en temps réel du flux audio.

Krisp est une application qui élimine en temps réel les sons étrangers lors des appels via Skype, Slack et d'autres services VoIP. L’application permet de masquer les bruits de fond de votre côté, mais également ceux de votre interlocuteur.

La technologie derrière Krisp

Krisp est le produit d'une société américaine d’origine arménienne - 2 Hz, fondée en 2017 par deux amis : David Baghdasaryan et Artavazd Minasyan. La technologie est issue de la combinaison de l’apprentissage automatique et du traitement numérique du signal.

L'équipe du projet a assemblé deux bases de données : dans la première, il y avait plusieurs dizaines de milliers d'enregistrements audio avec divers sons-bruits (par exemple, des alarmes de voiture). Dans la seconde - des exemples de discours pur enregistrés en studio. Ensuite, les développeurs ont commencé à générer des échantillons - imposer du bruit à la parole pure et à créer de nombreuses combinaisons avec différents sons et niveaux de volume.

Par exemple :

  • Discours silencieux avec le bruit fort d'une sirène d'incendie.
  • Discours fort avec le bruit fort d'une sirène d'incendie.
  • Discours fort avec le son silencieux d'une sirène d'incendie.
  • Discours silencieux avec un bruit calme d'une sirène d'incendie et ainsi de suite.

Ensuite, ils ont créé un réseau de neurones profond et ont utilisé les échantillons résultants afin qu’il puisse dissocier les voix humaines et une variété de bruits de fond. Pour être plus clair, ils ont donné un échantillon de discours avec du bruit, un échantillon de discours pur sans bruit et ont proposé d’éliminer tout ce qui est inutile. Et ils ont répété la procédure plusieurs fois jusqu'à ce que le réseau neuronal apprenne à reconnaître et à supprimer efficacement le bruit.

Idée

David Baghdasaryan est né et a grandi en Arménie, il est diplômé de la faculté de l’informatique de l’Université d’Etat d’Erevan. Dès ses années d'études, il a travaillé dans des sociétés sous-traitance locales qui ont créé des produits informatiques pour des clients étrangers - y compris des États-Unis. Un de ces clients était Validity Sensors qui produisait des scanners d'empreintes digitales pour ordinateurs portables et smartphones. En 2008, la direction a proposé à M. Baghdasaryan de déménager aux États-Unis afin de diriger le département de la sécurité de l'information.

Il a travaillé chez Validity Sensors pendant quatre ans, puis a rejoint la startup Nok Nok Labs, qui a été ouverte par l'un de ses anciens dirigeants. L'entreprise était impliquée dans des solutions de sécurité et Baghdasaryan était responsable du développement du protocole FIDO (Fast IDentity Online), qui a ensuite été utilisé par Google, Facebook, GitHub, Microsoft et d'autres sociétés.

Au fil du temps, il a commencé à s'ennuyer et a décidé de changer de domaine. Ainsi, en 2016, il rejoint la société Twilio, qui développe API (Interface de programmation d'application) pour la communication d'entreprise. En utilisant le logiciel Twilio, les entreprises peuvent recevoir et passer des appels, ainsi qu’envoyer et recevoir les SMS. Par exemple, Uber utilise Twilio pour les appels entre les passagers et les conducteurs. « Nous nous demandions constamment comment améliorer la qualité audio. Le plus souvent, le son s'est aggravé précisément à cause du bruit de fond », se rappelle Baghdasaryan.

« Il me semblait alors : d'accord, c'est un problème classique que l'apprentissage automatique peut résoudre. Il est nécessaire d'enseigner au réseau neuronal ce qu'est le bruit et ce qu'est une voix humaine, et de lui apprendre à les séparer. J'étais curieux - pourquoi personne ne l'avait encore résolu », explique Davit Baghdasaryan.

L'entrepreneur avait une raison personnelle de s'attaquer au problème. Pendant un certain temps, il a travaillé à distance en Arménie. En raison du décalage horaire, il devait communiquer avec l'équipe le soir et il ne savait pas où le prochain appel se produirait : avec les enfants bruyants, dans un café ou ailleurs ?

« Et je pensais que ce serait cool d'avoir un service qui supprimerait les bruits gênants afin que les interlocuteurs ne puissent pas comprendre où vous êtes », explique Baghdasaryan.

Fin 2016, Baghdasaryan a parlé de cette idée à son ami, docteur en mathématiques Artavazd Minasyan. D’ici là, il avait déjà plusieurs entreprises dans le domaine informatique. De plus, il était à la recherche de projets intéressants dans le domaine de l'apprentissage automatique.

À l'automne 2017, Baghdasaryan a finalement décidé de quitter Twilio et de déménager en Arménie avec toute sa famille. Quelques semaines après son retour, ils ont ouvert, avec Minasyan, la compagnie 2 Hz.

Difficultés de développement

La société devait développer des algorithmes efficaces qui pourraient couper les sons étrangers de l'audio en temps réel. Pour ce faire, ils ont dû résoudre un certain nombre de problèmes d'ingénierie.

Dans une conversation naturelle, le délai entre la transmission vocale ne doit pas dépasser 200 millisecondes. Si le réseau neuronal n'a pas le temps de traiter l'audio pendant cette période, la communication deviendra problématique.

Il a fallu plusieurs mois à l'équipe de 2 Hz pour trouver la combinaison optimale entre la qualité de la réduction du bruit et la vitesse. En conséquence, ils ont développé une technologie qui permet non seulement d'éliminer le bruit, mais aussi d'améliorer la qualité sonore : remplir automatiquement les interruptions, ajuster le volume et augmenter la fréquence d'échantillonnage. Tous les calculs ont lieu en 15 millisecondes.

Promotion et vogue

La société a présenté Krisp en octobre 2018. À la fin du mois, Baghdasaryan a publié un article sur le produit et sur la technologie dans un blog pour les développeurs de Nvidia. Selon lui, plus d'un millier d'utilisateurs sur les réseaux sociaux ont partagé le matériel, ce qui lui a coûté une nuit blanche : jusqu'au matin, il a répondu à des messages avec des questions.

Dans la nuit du 16 novembre, un utilisateur a publié le lien vers Krisp dans la communauté Hacker News, et dans la matinée une personne inconnue a fait l’annonce du produit sur la plateforme Product Hunt.

Cela n’était pas prévu par 2 Hz - l'équipe ne disposait pas du matériel marketing nécessaire et Baghdasaryan a tenté de contacter l'administration du service pour supprimer la mention de Krisp. Cependant, lorsque le représentant de l'administration a finalement pris contact, Krisp avait déjà toutes les chances de devenir le produit de la journée - et l'entrepreneur a décidé de le laisser tel quel.

Par la suite, Krisp a remporté la première place dans la nomination Produit du jour, la troisième place dans la nomination Produit de la semaine et la quatrième dans la nomination Produit du mois, ainsi que la première place dans la nomination Produit de l'année dans la catégorie « Son et audio ».

Selon M. Baghdasaryan, la version Mac compte désormais environ 20.000 installations et environ 6.000 utilisateurs actifs par semaine (ceux qui utilisent l'application au moins une fois par semaine sont considérés comme actifs).

La société prévoit de cibler le produit sur les joueurs qui créent souvent des discussions de groupe pour plusieurs dizaines de personnes sur la plate-forme Discord et dans d'autres services VoIP. « Nous développons des investissements en capital-risque. Il s'agit d'un scénario typique pour une entreprise informatique : il faut du temps et des ressources pour achever la technologie. Mais quand tout est prêt, les revenus augmentent très rapidement », dit David Baghdasaryan.

À l'avenir, 2 Hz prévoit d'entrer sur le marché des services pour améliorer la qualité vidéo.