L’intelligence artificielle à Montréal

Montréal semblerait devenir le pôle de la révolution de l’intelligence artificielle. En 2017, plus d’un milliard de dollars ont été investis dans ce secteur de développement technologique. Ce qu’on y fait aura, dans quelques années, une influence importante sur le quotidien de millions de personnes à travers le monde. C’est donc à Montréal que se prépare l’avenir des technologies.

Dmitriy Serdyuk est doctorant à MILA (Montreal Institut of Learning Algorithms) et assistant de recherche à Element AI, qui se spécialise dans les produits de l’intelligence artificielle afin d’accélérer la transformation numérique des moyennes et grandes entreprises dans les secteurs de la fiance, l’assurance et la logistique du transport. Les deux dernières recherches de ce spécialiste sont un ajout important au développement de la technologie des commandes vocales et de l’anticipation du futur par les logiciels intelligents. Selon lui, peut-être d’ici 50 ans, nous pourrions nous attendre à avoir une intelligence artificielle très développée qui pourra sûrement rivaliser avec le cerveau humain.

Notez que cette entrevue présente l’opinion personnelle de Dmitriy Serdyuk et non le point de vue de Element AI et de MILA.

Qu’est-ce que Montréal a pour l’industrie de l’intelligence artificielle que les autres villes n’ont pas ?

Montréal a un écosystème où l’on retrouve beaucoup de professeurs et d’étudiants. Aussi, il y a les laboratoires de recherche de Montréal qui se dédient à l’apprentissage automatique, et l’autre point important est que l’écosystème de Montréal est ouvert aux discussions. Ainsi, les chercheurs et les représentants de plusieurs industries se rencontrent fréquemment dans des colloques, des symposiums, comme ce fut le cas de la conférence NIPS 2018 à Montréal, en décembre dernier. Donc, il y a une interconnectivité qui nous rassemble à Montréal.

Après votre dernier article Towars End-to-end Spoken Language Understanding, pourriez-vous l’expliquer en détail ?

Mon dernier article est Towars End-to-end Spoken Language Understanding qui explore l’idée de combiner deux différentes étapes pour la compréhension du langage. Alors, quand nous demandons quelque chose à Google Assistance sur notre téléphone, par exemple : « Ok Google, ouvre Spotify », le dispositif écrit ce que vous dites sur votre écran et, par la suite, essaye de décoder le texte pour ensuite réaliser la commande. J’ai donc essayé de combiner et de simplifier la procédure, et l’une des raisons principales est que lorsque vous avez une procédure multiple, des erreurs peuvent survenir à chaque étape et s’accumuler. Par exemple : vous lui demander d’ouvrir une page Spotify, mais en le retranscrivant il comprend autre chose, et ouvre une page YouTube. Ce dernier travail de recherche vient simplifier le tout en éliminant une étape, soit l’écriture de la commande. Donc, Google Assistance, par exemple, écoutera et agira plus rapidement sans avoir à retranscrire ce qui est dit.

Comment est-ce que vos recherches s’appliquent-elles dans la vie de tous les jours?

C’est utile pour l’assistance automatique et la transcription de texte. Par exemple, quand quelqu’un fait une entrevue, vous avez alors besoin de la retranscrire à la main, alors que vous pourriez utiliser le système de reconnaissance de texte qui sera en mesure de tout retranscrire automatiquement. Le but ultime serait d’avoir une assistance intelligente qui serait capable d’interagir avec les gens.

Quels sont les différents domaines étudiés au MILA ?

Il y a des domaines tels que la vision, l’apprentissage par renforcement, les études sur la formation de logiciel dans l’environnement de l’intelligence artificielle et l’imagerie médicale. Aussi, il y a un peu de recherche sur la robotique, la langue naturelle qui inclut la traduction automatique, ainsi que la synthèse ou le résumé rapide de texte, et c’est pas mal tout.

Avec toutes ces recherches pour le développement des technologies propulsées par l’intelligence artificielle, y a-t-il des domaines moins étudiés ou même délaissés par les chercheurs par simple manque de popularité ?

Je dirais que mon domaine d’expertise, l’audio, est le domaine le moins populaire, comparé à d’autres comme la vision ou le traitement du langage naturel. C’est comme une « tendance mode » qui revient et s’en va, parce que c’était populaire en 2012, et, maintenant, sa popularité est très en baisse. Donc, probablement que dans l’avenir sa popularité va augmenter. Le domaine le plus populaire, en ce moment, est peut-être la vision, qui permet à l’intelligence de comprendre ce qui peut être dessiné ou écrit.

La start up Lyrebird qui est spécialisée dans la copie de voix de gens a lancé une publicité incroyable où elle a copié la voix de Barack Obama pour lui faire dire ce qu’elle voulait dans une courte vidéo. Expliquez-moi les aspects positifs et aussi négatifs de la création de ce genre de dispositifs vocaux ?

N’importe qui pourrait faire la même chose chez soi avec beaucoup de calculs et un peu de travail d’ingénierie. Cependant, vous devez avoir de l’argent pour ça, et des compétences, mais c’est possible. Il faut montrer au public que c’est possible parce que c’est déjà arrivé. Lorsque les gens ont compris qu’on peut modifier des photos avec Photoshop, ils sont devenus plus conscients des fausses photos, comme ils le seront avec des fausses voix.

Ces nouvelles technologies sont-elles les nouveaux esclaves du futur ?

Je pense que nous sommes encore très loin d’avoir une intelligence artificielle forte. Donc, il y a une catégorisation qui définit l’intelligence artificielle forte et faible. Par exemple, une intelligence artificielle faible va résoudre une tâche particulière et avoir une très bonne note, et ce, dans un contexte où le logiciel serait en mesure de faire un travail spécifique comme retranscrire un texte, traduire, reconnaitre des visages ou reconnaitre des voix. Malgré son expertise, il ne peut pas penser comme un humain et s’adapter rapidement à d’autres environnements que celle lui ayant été inculquée. En ce moment, des chercheurs tentent d’apprendre à ce logiciel à s’adapter aux divers environnements. Par exemple, les humains peuvent apprendre dans une classe et appliquer leurs connaissances dans d’autres milieux de leur quotidien, comme lorsqu’ils écrivent à l’extérieur de ce qui est demandé par l’école. Pour le moment, nous avons un logiciel faible. Dans le cas que tu soulèves, tu parles d’une intelligence artificielle forte, comme ce que l’on peut voir dans le film de science-fiction Terminator. Un logiciel pouvant agir, comprendre et exécuter des tâches comme le feraient des humains arrivera peut-être d’ici 50 ans. Je pense que nous avons du temps pour nous adapter.

À quoi devons-nous attendre dans les prochaines années pour l’intelligence artificielle ?

Je pense que dans deux ans, la prochaine étape de l’intelligence artificielle sera de comprendre les causes et effets de différentes actions, parce que, maintenant, nous pensons fortement que le système ne les distingue pas. Une autre étape serait de faire apprendre et agir le logiciel dans l’environnement. Par exemple, il serait possible de faire de simples robots qui seraient en mesure d’apporter votre bière ou votre café. Donc, cela implique l’apprentissage de la navigation dans la pièce, la manipulation simple d’objets de tous les jours et la compréhension de commentaires simples. Ces trois tâches ne sont pas parfaites encore, et nous devons travailler à pouvoir les combiner d’une bonne manière.

par Jeanne Brière, rédactrice du ComMédia