Deep Learning : qu’est-ce que c’est et comment ça marche ?

Le Deep Learning, ou apprentissage profond, est l’une des principales technologies de Machine Learning et d’intelligence artificielle. Découvrez en quoi consiste cette technologie, son fonctionnement, et ses différents secteurs d’application. 

Le Deep Learning (apprentissage profond) est une forme d’intelligence artificielle, dérivée du Machine Learning (apprentissage automatique). Pour comprendre ce qu’est le Deep Learning, il convient donc de comprendre ce qu’est le Machine Learning.

Deep Learning (apprentissage profond) : origines et définition

Le concept de Machine Learning date du milieu du 20ème siècle. Dans les années 1950, le mathématicien britannique Alan Turing imagine une machine capable d’apprendre, une « Learning Machine ». Au cours des décennies suivantes, différentes techniques de Machine Learning ont été développées pour créer des algorithmes capables d’apprendre et de s’améliorer de manière autonome.

Parmi ces techniques, on compte les réseaux de neurones artificiels. C’est sur ces algorithmes que reposent le Deep Learning, mais aussi des technologies comme la reconnaissance d’images ou la vision robotique. Les réseaux de neurones artificiels sont inspirés par les neurones du cerveau humain. Ils sont constitués de plusieurs neurones artificiels connectés entre eux. Plus le nombre de neurones est élevé, plus le réseau est  « profond ».

Deep Learning (apprentissage profond) : fonctionnement

Au sein du cerveau humain, chaque neurone reçoit environ 100 000 signaux électriques des autres neurones. Chaque neurone en activité peut produire un effet excitant ou inhibiteur sur ceux auxquels il est connecté. Au sein d’un réseau artificiel, le principe est similaire. Les signaux voyagent entre les neurones. Toutefois, au lieu d’un signal électrique, le réseau de neurones assigne un certain poids à différents neurones. Un neurone qui reçoit plus de charge exercera plus d’effet sur les neurones adjacents. La couche finale de neurones émet une réponse à ces signaux.

Pour comprendre comment fonctionne le Deep Learning, prenons un exemple concret de reconnaissance d’images. Imaginons que le réseau de neurones soit utilisé pour reconnaître les photos qui comportent au moins un chat. Pour pouvoir identifier les chats sur les photos, l’algorithme doit être en mesure de distinguer les différents types de chats, et de reconnaître un chat de manière précise quel que soit l’angle sous lequel il est photographié.

Afin d’y parvenir, le réseau de neurones doit être entraîné. Pour ce faire, il est nécessaire de compiler un ensemble d’images d’entraînement. Cet ensemble va regrouper des milliers de photos de chats différents, mélangés avec des images d’objets qui ne sont pas des chats. Ces images sont ensuite converties en données et transférées sur le réseau. Les neurones artificiels assignent ensuite un poids aux différents éléments. La couche finale de neurones va alors rassembler les différentes informations pour déduire s’il s’agit ou non d’un chat.

Le réseau de neurones va ensuite comparer cette réponse aux bonnes réponses indiquées par les humains. Si les réponses correspondent, le réseau garde cette réussite en mémoire et s’en servira plus tard pour reconnaître les chats. Dans le cas contraire, le réseau prend note de son erreur et ajuste le poids placé sur les différents neurones pour corriger son erreur. Le processus est répété des milliers de fois jusqu’à ce que le réseau soit capable de reconnaître un chat sur une photo dans toutes les circonstances. Cette technique d’apprentissage est appelée « supervised learning » ou apprentissage supervisé.

Une autre technique d’apprentissage est celle de l’« unsupervised learning », ou apprentissage non supervisé. Cette technique repose sur des données qui ne sont pas étiquetées. Les réseaux de neurones doivent reconnaître des patterns au sein des ensembles de données pour apprendre par eux-mêmes quels éléments d’une photo peuvent être pertinents.

Deep Learning (apprentissage automatique) : comment les réseaux de neurones ont évolué en dix ans

Parmi les autres techniques populaires de Machine Learning, on compte l’« adaptative boosting » ou AdaBoost. Cette technique introduite en 2001 par Paul Viola et Michael Jones de Mitsubishi Electric Research Laboratories permet de détecter les visages en temps réel sur une image. Plutôt que de reposer sur un réseau de neurones interconnectés, AdaBoost filtre une image à partir d’un ensemble de décisions simples pour repérer les visages.

Cette technique et d’autres ont bien failli faire oublier les réseaux de neurones. Toutefois, grâce à l’explosion du nombre de données étiquetées, les réseaux de neurones sont revenus sur le devant de la scène. En 2007, une base de données regroupant des millions d’images étiquetées en provenance d’internet, ImageNet, a été lancée. Grâce à des services comme Amazon Mechanical Turk, proposant aux utilisateurs deux centimes pour chaque image étiquetée, la base de données a très rapidement été alimentée. Aujourd’hui, ImageNet regroupe 10 millions d’images étiquetées.

Les réseaux de neurones ont également évolué et contiennent désormais bien plus de couches différentes. Google Photos comporte par exemple 30 couches. Une autre évolution massive est celle des réseaux de neurones convolutifs. Ces réseaux ne s’inspirent pas seulement du fonctionnement du cerveau humain, mais aussi du système visuel.

Au sein d’un tel réseau, chaque épaisseur applique un filtre sur les images pour identifier des patterns ou des éléments spécifiques. Les premières épaisseurs détectent les principaux attributs, tandis que les dernières épaisseurs repèrent les détails les plus subtils et les organisent en éléments concrets. Ainsi, ces réseaux convolutifs sont en mesure d’identifier des attributs hautement spécifiques, comme la forme des pupilles ou la distance entre le nez et les yeux, afin de reconnaître un chat avec une précision inouïe.

Deep Learning (apprentissage automatique) : à quoi ça sert ?

Le Deep Learning a de nombreuses utilités. C’est cette technologie qui est utilisée pour la reconnaissance faciale de Facebook par exemple, afin d’identifier automatiquement vos amis sur les photos. C’est également cette technologie qui permet à la reconnaissance faciale Face ID de l’iPhone X d’Apple de s’améliorer au fil du temps. Comme expliqué précédemment, l’apprentissage automatique est également la technologie centrale de la reconnaissance d’images.

Pou traduire des conversations orales en temps réel, des logiciels comme Skype ou Google Traduction s’appuient aussi sur l’apprentissage automatique. C’est également grâce à cette technologie que l’intelligence artificielle Google Deepmind AlphaGo est parvenue à triompher du champion du monde. Depuis quelques années, avec l’apparition des réseaux de neurones convolutifs, le Deep Learning est au cœur de la vision par ordinateur et de la vision robotique.

Comme l’explique le professeur Peter Corke, étant donné que les réseaux de neurones artificiels imitent le fonctionnement du cerveau humain, les possibilités offertes par cette technologie augmenteront à mesure que nous découvrons les secrets de notre propre organe. En comprenant l’algorithme sur lequel repose le cerveau humain, et les moyens que nous a apporté l’évolution au fil du temps pour comprendre les images, l’ingénierie inversée nous permettra de porter le potentiel du cerveau humain sur les réseaux artificiels.

Par Bastien L

Source

Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someone

Data Analytics, Les métiers du Digital