Glossaire  RGPD

A
A/B TESTING OU « COMPARAISON A/B »

L’A/B testing consiste à proposer deux versions d’un site variant légèrement (par exemple où seule la couleur d’un bouton est modifiée), à deux groupes d’utilisateurs répartis sur chaque version de manière aléatoire, pour identifier la manière dont une métrique prédéfinie est impactée (par exemple, le taux d’inscription au site). Une fois qu’il est déterminé quelle variante est la plus efficace, elle est conservée pour l’ensemble des visiteurs.

ACCOUNTABILITY

L’accountability désigne l’obligation pour les entreprises de mettre en œuvre des mécanismes et des procédures internes permettant de démontrer le respect des règles relatives à la protection des données.

AD EXCHANGE OU « PLATEFORME D’ÉCHANGES PUBLICITAIRES »

Un Ad Exchange est une plateforme mettant automatiquement en relation les ordres d’achats venant des demand-side platforms (DSP) et les inventaires disponibles proposés par les supply-side platforms (SSP), par exemple lors d’enchères en temps réel.

AFAPDP

Association francophone des autorités de protection des données personnelles (AFAPDP) est une association créée en 2007 à l’initiative d’une trentaine de représentants d’autorités de contrôle et représentants d’états francophones.

Cette association a pour objectif de promouvoir le droit à la protection des données personnelles, dans les États non encore dotés d’une législation (la majorité des États dans le monde) et d'encourager, au niveau international, l’établissement d’un instrument juridique international contraignant.

Elle contribue à développer et valoriser l’expertise francophone en matière de protection des données personnelles.

AFFILIATION

L’affiliation est une technique de publicité ne reposant pas sur la collecte des données de navigation des utilisateurs. Un site web proposant des contenus (comme un blog thématique ou un comparateur) va ainsi proposer à ses lecteurs des liens d’achat directs vers des plateformes de e-commerce spécifiques pour des produits dont il fait la promotion. Si le lecteur souhaite faire un achat, il est alors redirigé vers cette plateforme et l’éditeur touche une commission sur l’achat. Le site web sera alors « affilié » à la plateforme de e-commerce.

ALERTES PROFESSIONNELLES

C’est un outil mis à la disposition des salariés leur permettant de signaler des problèmes pouvant sérieusement affecter l’activité d’une entreprise ou engager gravement sa responsabilité. Il peut s’agir par exemple d’un numéro de téléphone « ligne éthique » ou d’une adresse électronique particulière. Les alertes recueillies sont ensuite vérifiées, dans un cadre confidentiel, et permettent à l’employeur de décider, en connaissance de cause, des mesures correctives à prendre. Compte tenu de la multiplicité des voies d’alertes déjà disponibles dans les entreprises (voie hiérarchique, commissaires aux comptes, fonctions de l’audit ou de la conformité interne, représentants du personnel, inspection du travail, etc.) le dispositif d’alerte professionnelle est facultatif. Un salarié ne peut pas être sanctionné s’il ne souhaite pas l’utiliser.

ALGORITHME

Un algorithme est la description d'une suite d'étapes permettant d'obtenir un résultat à partir d'éléments fournis en entrée. Par exemple, une recette de cuisine est un algorithme permettant d'obtenir un plat à partir de ses ingrédients ! Dans le monde de plus en plus numérique dans lequel nous vivons, les algorithmes mathématiques permettent de combiner les informations les plus diverses pour produire une grande variété de résultats : simuler l'évolution de la propagation de la grippe en hiver, recommander des livres à des clients sur la base des choix déjà effectués par d'autres clients, comparer des images numériques de visages ou d'empreintes digitales, piloter de façon autonome des automobiles ou des sondes spatiales, etc.

Pour qu'un algorithme puisse être mis en œuvre par un ordinateur, il faut qu'il soit exprimé dans un langage informatique, sous la forme d'un logiciel (souvent aussi appelé « application »). Un logiciel combine en général de nombreux algorithmes : pour la saisie des données, le calcul du résultat, leur affichage, la communication avec d'autres logiciels, etc.

Certains algorithmes ont été conçus de sorte que leur comportement évolue dans le temps, en fonction des données qui leur ont été fournies. Ces algorithmes « auto-apprenants » relèvent du domaine de recherche des systèmes experts et de l'« intelligence artificielle ». Ils sont utilisés dans un nombre croissant de domaines, allant de la prédiction du trafic routier à l'analyse d'images médicales. 

ANALYSE D’IMPACT (AIPD)

Une analyse d’impact sur la protection des données est une étude qui doit être menée lorsqu'un traitement de données personnelles est susceptible d'engendrer un risque élevé pour les droits et libertés des personnes concernées.

L'AIPD se décompose en trois parties :

  1. Une description détaillée du traitement mis en œuvre, comprenant tant les aspects techniques qu’opérationnels ;
  2. L’évaluation, de nature plus juridique, de la nécessité et de la proportionnalité concernant les principes et droits fondamentaux (finalité, données et durées de conservation, information et droits des personnes, etc.) non négociables, qui sont fixés par la loi et doivent être respectés, quels que soient les risques ;
  3. L’étude, de nature plus technique, des risques sur la sécurité des données (confidentialité, intégrité et disponibilité) ainsi que leurs impacts potentiels sur la vie privée, qui permet de déterminer les mesures techniques et organisationnelles nécessaires pour protéger les données.

ANNOTATION (IA)

L’annotation est le procédé par lequel les données sont décrites manuellement afin d’être caractérisées, par exemple en attribuant à une image de chien l’étiquette correspondante. On parle aussi de vérité terrain ou groundtruth.

APPLICATION MOBILE

La notion d’application mobile désigne les logiciels applicatifs distribués dans l’environnement des mobiles multifonctions (ou « smartphones ») et tablettes, c’est-à-dire des terminaux individuels et portatifs, permettant un accès au réseau Internet ainsi que, le plus souvent, au réseau…

APPRENTISSAGE AUTO-SUPERVISÉ

L’apprentissage auto-supervisé est une méthode d’apprentissage automatique (« machine learning ») où un modèle extrait de l’information à partir de données non étiquetées, en créant ses propres tâches de supervision : l’algorithme sépare les données en différentes parties, utilisant certaines pour créer des prédictions et d’autres pour évaluer ces prédictions, s’améliorant sans supervision initiale.

APPRENTISSAGE AUTOMATIQUE

L’apprentissage automatique (machine learning en anglais) est un champ d’étude de l’intelligence artificielle qui vise à donner aux machines la capacité d’« apprendre » à partir de données, via des modèles mathématiques. Plus précisément, il s’agit du procédé par lequel les informations pertinentes sont tirées d’un ensemble de données d’entraînement.
Le but de cette phase est l’obtention des paramètres d’un modèle qui atteindront les meilleures performances, notamment lors de la réalisation de la tâche attribuée au modèle. Une fois l’apprentissage réalisé, le modèle pourra ensuite être déployé en production.

APPRENTISSAGE FÉDÉRÉ

L’apprentissage fédéré est un paradigme d'apprentissage dans lequel plusieurs entités entraînent collaborativement un modèle d’IA sans mise en commun de leurs données respectives. En pratique, les entités impliquées dans l'apprentissage envoient les modèles appris sur leurs données locales à un centre orchestrateur afin de consolider le modèle global. Ce paradigme s'oppose à l'apprentissage centralisé dans lequel toutes les données sont transmises à un serveur central chargé d'exécuter l'apprentissage du modèle.

APPRENTISSAGE NON SUPERVISÉ

L’apprentissage non supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme utilise un jeu de données brutes et obtient un résultat en se fondant sur la détection de similarités entre certaines de ces données.

APPRENTISSAGE PAR RENFORCEMENT

L’apprentissage par renforcement est un procédé d’apprentissage automatique consistant, pour un système autonome, à apprendre les actions à réaliser, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps.
Le système est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure une récompense, qui peut être positive ou négative.
Au fil des expériences, le système cherche un comportement décisionnel optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.

APPRENTISSAGE PAR TRANSFERT

En apprentissage automatique, l’apprentissage par transfert consiste à utiliser les connaissances acquises lors de l’apprentissage d’une tâche pour améliorer les performances sur une tâche analogue, généralement lorsque les données d’apprentissage sont limitées pour cette nouvelle tâche.
Par exemple, un modèle d’apprentissage profond entrainé sur une grande base de données images comme ImageNet peut être adapté, par apprentissage par transfert, à la détection de tumeurs cancéreuses dans des images médicales.

APPRENTISSAGE PROFOND (DEEP LEARNING)

L’apprentissage profond est un procédé d’apprentissage automatique utilisant des réseaux de neurones possédants plusieurs couches de neurones cachées. Ces algorithmes possédant de très nombreux paramètres, ils demandent un nombre très important de données afin d’être entraînés.

APPRENTISSAGE SUPERVISÉ

L’apprentissage supervisé est un procédé d’apprentissage automatique dans lequel l’algorithme s’entraîne à une tâche déterminée en utilisant un jeu de données assorties chacune d’une annotation indiquant le résultat attendu.

ATTAQUE PAR EMPOISONNEMENT (DATA POISONING ATTACK)

Les attaques par empoisonnement visent à modifier le comportement du système d’IA en introduisant des données corrompues en phase d’entraînement (ou d’apprentissage). Elles supposent que l’attaquant soit en mesures de soumettre des données à utiliser lors de l’entraînement du système d’IA.

ATTAQUE PAR EXEMPLES CONTRADICTOIRES (ADVERSARIAL EXAMPLES ATTACK)

Les attaques par exemples contradictoires visent à soumettre des entrées malicieuses ou corrompues au système d’IA en phase de production.

Exemple : une image qui aurait été modifiée de façon à tromper un classifieur d’image et ainsi attribuer à une image de panda, l’étiquette de singe.

Ces entrées apparaissent, pour un humain, quasiment identiques à leurs copies non altérées.

À la suite de cette attaque, qui peut être vue comme l’équivalent d’une illusion d’optique, le comportement du système d’IA est profondément altéré.

ATTAQUE PAR EXFILTRATION DE MODÈLE (MODEL EVASION ATTACK)

Les attaques par exfiltration de modèle visent à permettre le vol d’un modèle d’IA et/ou de ses paramètres et hyperparamètres. Le modèle constitue un actif de grande valeur pour un système d’IA.

ATTAQUE PAR INFÉRENCE D’APPARTENANCE (MEMBERSHIP INFERENCE ATTACK)

Les attaques par inférence d'appartenance visent à permettre à un attaquant d’acquérir des connaissances sur les données utilisées pour la production du modèle d’IA.

En pratique, il s’agit de déterminer si des données relatives à un individu ont été utilisées lors de la phase d’entraînement (ou d’apprentissage). Cette connaissance peut permettre à l’attaquant de déduire des informations concernant une personne (par exemple déterminer s’il est atteint d’une pathologie).

ATTAQUE PAR INVERSION DE MODÈLE (MODEL INVERSION ATTACK)

Les attaques par inversion visent à reconstruire les données ayant servi pour l’apprentissage du système. En pratique, les attaques par inversion sont menées en soumettant un grand nombre d’entrées au système d’IA et en observant les sorties produites. On utilise, de façon équivalente, le terme d’attaque par extraction de données (data extraction attacks).

AUGMENTATION DE DONNÉES (IA)

Dans le domaine de l'intelligence artificielle, le processus d’augmentation de données accroît la quantité de données d’entraînement par la création de nouvelles données à partir des données existantes.

Cette augmentation peut être réalisée par différentes opérations, par exemple, dans le cas d’images, par translation, rotation, ajout de bruit, etc.

B
BACKDOOR (PORTE DÉROBÉE)

Le principe de la mise en œuvre d’une « Backdoor » ou porte dérobée correspond à prévoir un accès tenu secret vis-à-vis de l’utilisateur légitime aux données contenues dans un logiciel ou sur un matériel. Le principe de la mise en œuvre d’une « Master Key » ou « clé maître » correspond à prévoir ouvertement un tel accès, mis en œuvre via cette clé, aux données chiffrées contenues dans un logiciel ou sur un matériel.

BASE LÉGALE

La base légale d’un traitement est ce qui autorise légalement sa mise en œuvre, ce qui donne le droit à un organisme de collecter ou d'utiliser des données personnelles.

On peut également parler de « fondement juridique » ou de « base juridique » du traitement.

Six bases légales sont prévues par le RGPD :

  • Le consentement ;
  • Le contrat ;
  • L’obligation légale ;
  • La sauvegarde des intérêts vitaux ;
  • L’intérêt public ;
  • Les intérêts légitimes.

BCR (BINDING CORPORATE RULES)

Les règles d’entreprise contraignantes (binding corporate rules ou BCR en anglais) sont un outil qui peut être utilisé par un groupe d'entreprises ou de sociétés, engagées dans une activité économique commune, pour transférer des données personnelles en dehors de l'Espace économique européen entre responsables de traitement ou sous-traitants, au sein du même groupe. Elles amènent les sociétés adhérentes d’un même groupe à déployer un schéma de gouvernance commun qui permet d’établir un niveau de protection des données essentiellement équivalent à celui prévu par le RGPD. Les BCR créent également des droits pour les personnes concernées en tant que tiers bénéficiaires.

BIG DATA

On parle depuis quelques années du phénomène de big data, que l’on traduit souvent par « données massives ». Avec le développement des nouvelles technologies, d’internet et des réseaux sociaux ces vingt dernières années, la production de données numériques a été de plus en plus nombreuse : textes, photos, vidéos, etc. Le gigantesque volume de données numériques produites combiné aux capacités sans cesse accrues de stockage et à des outils d’analyse en temps réel de plus en plus sophistiqués offre aujourd’hui des possibilités inégalées d’exploitation des informations. Les ensembles de données traités correspondant à la définition du big data répondent à trois caractéristiques principales : volume, vélocité et variété.

BIOMÉTRIE

La biométrie regroupe l’ensemble des techniques informatiques permettant de reconnaître automatiquement un individu à partir de ses caractéristiques physiques, biologiques, voire comportementales.

Les données biométriques sont des données personnelles car elles permettent d’identifier une personne.

Elles ont, pour la plupart, la particularité d’être uniques et permanentes (ADN, empreintes digitales, etc.).

BLOCKCHAIN

La blockchain est une technologie de stockage et de transmission d’informations, transparente, sécurisée, et fonctionnant sans organe central de contrôle. Elle constitue une base de données qui contient l’historique de tous les échanges effectués entre ses utilisateurs depuis sa création, sécurisée et distribuée : elle est partagée par ses différents utilisateurs, sans intermédiaire, ce qui permet à chacun de vérifier la validité de la chaîne. Il existe des blockchains publiques, ouvertes à tous, et des blockchains privées, dont l’accès et l’utilisation sont limitées à un certain nombre d’acteurs. Une blockchain publique peut donc être assimilée à un grand livre comptable public, anonyme et infalsifiable. Comme l’écrit le mathématicien Jean-Paul Delahaye, il faut s’imaginer « un très grand cahier, que tout le monde peut lire librement et gratuitement, sur lequel tout le monde peut écrire, mais qui est impossible à effacer et indestructible. 

BRAND SAFETY OU « PROTECTION DE LA MARQUE »

Lors de l’achat d’inventaires publicitaires, particulièrement via des outils de publicité programmatique, il est important pour les acheteurs que le contenu de la page sur laquelle la publicité est affichée ne porte pas préjudice à l’image du produit et/ou de l’annonceur.

Les outils de publicité programmatique intègrent donc souvent des moyens de limiter ces achats d’inventaires, en excluant par exemple certains sites (pornographie, presse à sensation, drogues), contextes (par exemple un article sur un accident de la route pour un fabricant automobile), ou encore des éditeurs spécifiques (une entreprise de commerce électronique évitera, en général, d’acheter des emplacements publicitaires sur le site de son concurrent).

BRING YOUR OWN DEVICE (BYOD)

Pratique qui consiste à utiliser ses équipements personnels (téléphone, ordinateur portable, tablette électronique) dans un contexte professionnel.

BULLE DE FILTRE

Phénomène principalement observé sur les réseaux sociaux où les algorithmes de recommandation – qui alimentent par exemple les fils d’actualité des publications susceptibles d’intéresser les utilisateurs– peuvent parfois ne proposer que des contenus similaires entre eux.

Ce phénomène intervient lorsqu’un algorithme est paramétré pour ne proposer que des résultats correspondant aux goûts connus d’un utilisateur, il ne sortira alors jamais des catégories connues.

C
CALCUL MULTIPARTITE SÉCURISÉ

Le calcul multipartite sécurisé (en anglais, « secure multi-party computation ») est une branche de la cryptographie permettant à plusieurs entités (ou parties) de calculer conjointement une fonction sur leurs données respectives, sans que celles-ci ne soient divulguées aux autres participants et tout en étant assuré que le résultat est exact.

CAPTATION

La captation d'une image est son enregistrement par un dispositif, par exemple une caméra de vidéosurveillance.   Termes simplifiés à privilégier : film, enregistrement.

CARACTÉRISTIQUE (IA)

Dans le domaine de l’intelligence artificielle, la caractéristique (feature en anglais) est la variable utilisée pour représenter une propriété définie d'une entité ou d'un objet.

Il peut s’agir d’informations relatives à la forme, la texture, ou encore à la couleur d’une image. Dans le cas d’un fichier audio, à la hauteur des sons, au timbre ou au tempo.

CATÉGORIE DE DONNÉES

Les catégories de données personnelles sont les types d'informations recueillies. Exemples : identité, situation familiale, économique ou financière, données bancaires, données de connexion, donnés de localisation, etc.   Terme simplifié à privilégier : type d'information.

CERTIFICATION

C’est une procédure par laquelle un organisme d’évaluation externe (appelé également tiers certificateur) va donner l’assurance écrite qu’une personne, un produit, un processus ou un service est en conformité avec les exigences données dans un référentiel. La loi donne à la CNIL un pouvoir de certification plus étendu que celui prévu par le RGPD en ce qui concerne la certification de personnes (par exemple le référentiel de certification des compétences du DPO.

La CNIL peut directement certifier des organismes et agréer des organismes certificateurs ou, selon les cas, choisir de collaborer avec le Comité Français d’Accréditation (COFRAC). La certification est contraignante, elle donne lieu à un contrôle régulier, par le tiers certificateur, du respect du référentiel via des audits et des examens et doit être renouvelée.

CHIFFREMENT HOMOMORPHE

Le chiffrement homomorphe est une technique de cryptographie permettant de réaliser des opérations sur des données chiffrées sans que celles-ci aient à être déchiffrées. Le résultat de ces opérations reste sous forme chiffrée et ne peut être déchiffré que par les destinataires autorisés (détenant la clé de déchiffrement). Cette technique permet ainsi aux participants d’un calcul de garder leurs données confidentielles au cours d’un calcul.

CLASSIFICATION (IA)

La classification est une méthode de catégorisation qui consiste à attribuer une classe ou catégorie à une entrée qui lui est soumise en fonction de sa proximité à la classe en question selon des critères bien choisis.

Exemple : un système d’IA entraîné pour la reconnaissance d’images d’animaux utilise des techniques de classification : oiseaux, chiens, poissons...

CLAUSES CONTRACTUELLES TYPES

Il s’agit de modèles de clauses contractuelles adoptés par la Commission européenne permettant d’encadrer les transferts de données personnelles effectués par des responsables de traitement vers des destinataires situés hors de l’Union européenne. Elles ont pour but de faciliter la tâche des responsables de traitement dans la mise en œuvre de contrats de transfert. On distingue les transferts de responsable de traitement à responsable de traitement et les transferts de responsable de traitement à sous-traitant. Il existe donc deux types de clauses afin d’encadrer chacun des transferts.

CLICK-THROUGH RATE (CTR) OU « TAUX DE CLIC »

Le click-through rate est un indicateur d’efficacité d’une campagne de marketing numérique, que cette efficacité soit due au contenu de la campagne en elle-même ou à son placement (par exemple grâce au ciblage). Il correspond au nombre de clics sur le contenu publicitaire divisé par le nombre d’impressions du contenu. Plus le résultat est élevé, plus la campagne peut être considérée comme efficace. Certaines solutions de publicité ciblée utilisent cet indicateur pour facturer leurs clients (qui payent alors au « coût par clic » ou CPC) comme alternative à la plus traditionnelle facturation au nombre d’impression (« coût par mille impressions » ou CPM).

CLOUD COMPUTING

Le cloud computing (en français, « informatique dans les nuages ») fait référence à l’utilisation de la mémoire et des capacités de calcul des ordinateurs et des serveurs répartis dans le monde entier et liés par un réseau. Les applications et les données ne se trouvent plus sur un ordinateur déterminé mais dans un nuage (cloud) composé de nombreux serveurs distants interconnectés.

CNAME CLOAKING OU « DÉLÉGATION DE SOUS-DOMAINE »

Le CNAME cloaking consiste à déléguer la gestion d’un sous-domaine de l’éditeur à un tiers via une redirection. Cela permet à ce tiers de déposer, sur le terminal de l’utilisateur, des cookies qui seront considérés comme des cookies « first-party » et donc d’échapper aux éventuels blocages mis en place par les navigateurs, qui peuvent limiter le dépôt de cookies « third-party ».

Cette pratique n’est pas illégale, mais elle peut provoquer d’importantes failles de sécurité, notamment en termes de lecture par des tiers de jetons d’authentification (« tokens ») stockés dans des cookies. Si une telle pratique est utilisée, il est donc conseillé de séparer les sous-domaines gérés par des tiers de ceux déposant et lisant des informations sensibles.

CODE DE CONDUITE

Les codes de conduite traduisent une application concrète de la réglementation sur la protection des données à un secteur d’activité donné et se composent de bonnes pratiques (durée de conservation, mention d’information, modes opératoires…).

Ils sont élaborés par les acteurs professionnels (fédérations, organisations professionnelles). Un organisme peut librement adhérer à un code de conduite. Le RGPD prévoit qu’un organisme tiers sera chargé de contrôler le respect d’un code ce qui confère à cet outil de conformité un caractère contraignant. Les codes de conduites peuvent être européens ou nationaux ; dans ce dernier cas, la CNIL validera leur contenu avant de les publier.

COMMISSION NATIONALE DE L’INFORMATIQUE ET DES LIBERTÉS (CNIL)

Autorité administrative indépendante créée en 1978, composée d’un collège pluraliste de 17 commissaires, provenant d’horizons divers (4 parlementaires, 2 membres du Conseil économique et social, 6 représentants des hautes juridictions, 5 personnalités qualifiées désignées par le Président de l’Assemblée nationale (1), par le Président du Sénat (1), par le Conseil des ministres (3). Le mandat de ses membres est de 5 ans.

CONFÉRENCE MONDIALE DES COMMISSAIRES À LA PROTECTION DES DONNÉES ET À LA VIE PRIVÉE

Cette conférence se tient chaque année à l’automne. Elle réunit l’ensemble des 81 autorités et commissaires à la protection des données et à la vie privée de tous les continents. Elle est ouverte aux intervenants et participants du monde économique, des autorités publiques, et de la société civile. Une partie de la Conférence est réservée aux représentants des autorités accréditées par la Conférence, durant laquelle sont adoptées les résolutions et déclarations.

CONFIDENTIALITÉ DIFFÉRENTIELLE

La confidentialité différentielle désigne une propriété mathématique assurant que la présence ou l’absence d’un individu dans une base de données n’affecte pas le résultat obtenu par un processus d’anonymisation appliqué à celle-ci. Pour l’atteindre, l’ajout d’un bruit spécifique est généralement nécessaire (c’est-à-dire une perturbation des données). Cela implique de détériorer l’utilité et la qualité des données.

CONSENT MANAGEMENT PLATFORM (CMP) OU « PLATEFORME DE GESTION DU CONSENTEMENT »

Les plateformes de gestion du consentement permettent aux éditeurs de site web ou d’applications mobiles de mettre facilement en place une interface de recueil du consentement des utilisateurs.

Ces outils affichent une fenêtre contextuelle lors de la première visite d’un site, affichent les différentes finalités et responsables du traitement, conservent les choix des utilisateurs et mettent en place des solutions pour respecter ces choix.

CONSENTEMENT

Le consentement représente l'accord de la personne concernée à ce que ses données soient collectées et utilisées. C'est une des six bases légales prévues par le RGPD.

Il doit être librespécifiqueéclairé et univoque.

Terme simplifié à privilégier : accord.

CONTRÔLEUR EUROPÉEN DE LA PROTECTION DES DONNÉES (CEPD)

Le contrôleur européen de la protection des données (CEPD ou EDPS en anglais) est l’autorité de contrôle indépendante des institutions européennes (par exemple la Commission européenne) sur la protection des données.

Il ne doit pas être confondu avec le Comité sur la protection des données (CEPD ou EDPB en anglais).

COOKIE

Un cookie est un petit fichier stocké par un serveur dans le terminal (ordinateur, téléphone, etc.) d’un utilisateur et associé à un domaine web (c’est à dire dans la majorité des cas à l’ensemble des pages d’un même site web).  Ce fichier est automatiquement renvoyé lors de contacts ultérieurs avec le même domaine.

Les cookies ont de multiples usages : ils peuvent servir à mémoriser votre identifiant client auprès d'un site marchand, le contenu courant de votre panier d'achat, la langue d’affichage de la page web, un identifiant permettant de tracer votre navigation à des fins statistiques ou publicitaires, etc. Certains de ces usages sont strictement nécessaires aux fonctionnalités expressément demandées par l’utilisateur ou bien à l’établissement de la communication et donc exemptés de consentement. D’autres, qui ne correspondent pas à ces critères, nécessitent un consentement de l’utilisateur avant lecture ou écriture.

La distinction entre cookies « tiers » (ou « third party ») et cookie « internes » (ou « first-party ») est technique. Lorsqu'un utilisateur visite un site web, il consulte en pratique un « domaine » qui termine en général par une extension de type .com ou .fr (par exemple monsite.com est un domaine), les contenus peuvent être transmis depuis le domaine qu’il visite ou bien via d’autres domaines qu’il n’a pas entré lui-même et qui appartiennent à des tiers. En effet, chaque cookie est associé à un domaine et envoyé ou reçu à chaque fois que le navigateur va « appeler » ce domaine. En pratique :

  • Les cookies « internes » sont déposés par le site consulté par l’internaute, plus précisément sur le domaine du site. Ils peuvent être utilisés pour le bon fonctionnement du site ou pour collecter des données personnelles afin de suivre le comportement de l’utilisateur et servir à des finalités publicitaires ;
  • Les cookies « tiers » sont les cookies déposés sur des domaines différents de celui du site principal, généralement gérés par des tiers qui ont été interrogés par le site visité et non par l’internaute lui-même : ces cookies peuvent aussi être nécessaires au bon fonctionnement du site mais ils servent majoritairement à permettre au tiers de voir quelles pages ont été visitées sur le site en question par un utilisateur et de collecter des informations sur lui, notamment à des fins publicitaires.

Le fait que les cookies soient « internes » ou « tiers » est une distinction technique qui n’a pas de conséquence sur le fait de devoir demander ou pas le consentement. Dans la pratique, une grande majorité des cookies « tiers » ont des finalités qui nécessitent le consentement (par exemple publicitaire), mais on peut également trouver des cookies « tiers » qui sont effectivement strictement nécessaires à une fonctionnalité expressément demandée par l’utilisateur et donc exempté de consentement. C’est le cas, par exemple, des cookies servant uniquement à de l'authentification fédérée (lorsqu'un compte unique permet d'accéder à plusieurs sites).

COOKIE DE CAPPING

Le cookie de capping (« plafonnement » en français) est un traceur utilisé pour limiter le nombre de répétitions d’un contenu publicitaire à un même utilisateur.

Ce type de traceur est souvent utilisé dans le cas de la publicité contextuelle pour éviter la diminution de l’efficacité du message publicitaire après un certain nombre de répétitions.

COOKIE MATCHING

Le cookie matching est un système qui permet de faire coïncider les identifiants publicitaires d’un même utilisateur entre différents réseaux publicitaires.

Lorsque deux réseaux publicitaires tracent la même personne, il peut arriver qu’ils souhaitent échanger des données qu’ils possèdent sur cet individu. Or, les identifiants de cookie qu’ils utilisent ne sont pas les mêmes. Pour arriver à faire le lien entre leurs données, ils font lancer par le navigateur de l’utilisateur une requête qui redirige du domaine de l’un au domaine de l’autre, en renvoyant l’identifiant du premier publicitaire avec la redirection. Pouvant lire son identifiant de cookie ainsi que l’identifiant du premier publicitaire, le second réseau publicitaire est alors capable de réconcilier les deux identifiants et donc d’échanger avec le premier des données sur l’utilisateur.

COOKIE ZOMBIE OU SUPERCOOKIE

Un cookie zombie ou supercookie est un cookie qui utilise des méthodes tierces (fingerprinting et autres) pour régénérer l’identifiant permettant de tracer l’utilisateur même quand celui-ci est supprimé (soit volontairement par l’utilisateur, soit par les mécanismes de protection de la vie privée des navigateurs).

COUCHE DE NEURONES

Organisation des neurones dans un réseau. Il n'y a pas de connexion entre les neurones d'une même couche : les connexions ne se font qu'avec les neurones de la couche suivante.

Généralement, chaque neurone d'une couche est lié avec tous les neurones de la couche en aval et celle-ci uniquement.

On appelle couche d'entrée l’ensemble des neurones d'entrée et couche de sortie l’ensemble des neurones de sortie.

Les couches intermédiaires n'ont pas de contact avec l'extérieur et sont donc nommées couches cachées.

CREDENTIAL STUFFING (ATTAQUE INFORMATIQUE)

Le credential stuffing (ou bourrage d’identifiant) consiste à réaliser, à l’aide de logiciels ou de façon manuelle, des tentatives d’authentification massives sur des sites et services web à partir de couples identifiants/mots de passe (généralement, une adresse électronique et un mot de passe).

Elle est due à différents facteurs :

  1. L’identifiant d’un utilisateur correspond souvent à son adresse électronique, notamment sur le web.
  2. Les utilisateurs se servent souvent des mêmes couples identifiants et mot de passe sur plusieurs sites, sans renouveler leur mot de passe.
  3. Des listes contenant des centaines de millions de ces couples email/mot de passe sont disponibles au sein du web caché (dark web) suite à des violations de données.

Si le credential stuffing ne permet pas forcément et facilement de cibler un compte en particulier, il permet en revanche :

  • de trouver des couples identifiant/mot de passe valides (un faible pourcentage de plusieurs centaines de millions de comptes représente tout de même un volume de données qui peuvent être compromises) ;
  • de déjouer les mesures de sécurité les plus simples. En effet, les attaquants recourent généralement à une architecture distribuée (réseaux de machines zombies ou botnets) afin de ne pas être détectés. Ils peuvent également utiliser des machines ayant la capacité d’outrepasser les mesures de sécurité basiques telles que la résolution des CAPTCHA les plus simples.

Ce type d’attaque se rapproche de celui par force brute (bruteforce attack) dont le taux de réussite est limité aujourd’hui.

CRITÈRE D’ARRÊT (IA)

Élément de contrôle de l’évolution d’un algorithme d’apprentissage automatique qui permet, s’il est atteint, d’arrêter le processus itératif.

Il peut prendre différentes formes : la fonction de perte (qui permet de calculer l’erreur de prédiction) a suffisamment décru, le nombre d’itérations fixé est atteint, etc.

D
DATA MANAGEMENT PLATFORM (DMP) OU « PLATEFORME DE GESTION DES DONNÉES »

Une plateforme de gestion des données est un service effectuant la collecte et la gestion de données utilisateurs, souvent provenant de sources en ligne (via les cookies par exemple), mais aussi hors-ligne (importation de liste de clients de magasins physiques).

Elles permettent d’optimiser le ciblage des personnes, et sont notamment très utilisées pour le ciblage utilisateur lors d’enchères en temps réel. Ces plateformes peuvent être reliées à des demand-side platforms (DSP) ou supply-side platforms (SSP)  afin de permettre d’activer les données sur des campagnes publicitaires.

DÉCLARANT

Personne physique ou morale responsable d’un traitement ou d’un fichier contenant des données personnelles.

DÉLÉGUÉ À LA PROTECTION DES DONNÉES (DPO)

Le délégué à la protection des données (DPO) est chargé de mettre en œuvre la conformité au règlement européen sur la protection des données au sein de l’organisme qui l’a désigné s’agissant de l’ensemble des traitements mis en œuvre par cet organisme.

Sa désignation est obligatoire dans certains cas. Un délégué, interne ou externe, peut être désigné pour plusieurs organismes sous conditions. Pour garantir l’effectivité de ses missions, le délégué doit disposer de qualités professionnelles et de connaissances spécifiques et doit bénéficier de moyens matériels et organisationnels, des ressources et du positionnement adéquats.

DEMAND-SIDE PLATFORM (DSP) OU « PLATEFORME D’ACHAT »

Les demand-side platforms (DSP) sont les intermédiaires permettant aux régies publicitaires et annonceurs de réaliser leurs achats d’inventaires. Elles transfèrent ensuite ces ordres d’achat sur des plateformes d’échanges publicitaires, par exemple lors d’enchères en temps réel.

DÉRIVE DES DONNÉES

Variation des données utilisées à l'étape de production par rapport aux données qui ont été utilisées pour tester et valider le modèle avant son déploiement. Plusieurs facteurs peuvent entraîner cette dérive : des modifications de processus en amont, des problèmes de qualité des données, de soudains changements dans les données, etc.

DÉRIVE DU MODÈLE

La dérive du modèle est la perte d’adéquation entre un modèle et la tâche qu’il doit accomplir. Cette dérive peut résulter d’un réapprentissage du modèle ou d’une évolution de l’environnement dans lequel il s’applique (domaine d’emploi).

DÉSAPPRENTISSAGE MACHINE

Le désapprentissage machine est une technique liée à l’apprentissage automatique visant à faire disparaître une information des connaissances apprises par un modèle d’IA. L’objectif de ces techniques est de supprimer une information contenue dans un modèle sans avoir à réentraîner ce dernier.

DESTINATAIRE

Personne habilitée à obtenir communication de données enregistrées dans un fichier ou un traitement en raison de ses fonctions.

DISCOVERY

Discovery est le nom donné à la procédure américaine permettant, dans le cadre de la recherche de preuves pouvant être utilisées dans un procès, de demander à une partie tous les éléments d’information (faits, actes, documents...) pertinents pour le règlement du litige dont elle dispose quand bien même ces éléments lui seraient défavorables.

DOMAINE D’EMPLOI (IA)

Dans le domaine de l’intelligence artificielle, le domaine d’emploi est la description de l’environnement et de la population visée par le procédé d’apprentissage automatique.

DONNÉE BIOMÉTRIQUE

Caractéristique physique ou biologique permettant d’identifier une personne (ADN, contour de la main, empreintes digitales...).

DONNÉE BRUTE (IA)

Dans le domaine de l’intelligence artificielle, une donnée brute est une donnée n’ayant subi aucune transformation depuis son observation initiale.

DONNÉE DE SORTIE (IA)

Dans le domaine de l’intelligence artificielle, une donnée de sortie est une valeur représentant tout ou partie de l’opération effectuée par le système d’IA à partir des données d’entrée.

DONNÉE D’ENTRÉE (IA)

Dans le domaine de l’intelligence artificielle, une donnée d’entrée est une donnée utilisée pour l’apprentissage automatique ou la prise de décision du système d’IA (en phase de production).

DONNÉE PERSONNELLE

Une donnée personnelle est toute information se rapportant à une personne physique identifiée ou identifiable. Mais, parce qu’elles concernent des personnes, celles-ci doivent en conserver la maîtrise.

Une personne physique peut être identifiée :

  • Directement (exemple : nom et prénom) ;
  • Indirectement (exemple : par un numéro de téléphone ou de plaque d’immatriculation, un identifiant tel que le numéro de sécurité sociale, une adresse postale ou courriel, mais aussi la voix ou l’image).

L’identification d’une personne physique peut être réalisée :

  • A partir d’une seule donnée (exemple : nom) ;
  • A partir du croisement d’un ensemble de données (exemple : une femme vivant à telle adresse, née tel jour et membre dans telle association).

Par contre, des coordonnées d’entreprises (par exemple, l’entreprise « Compagnie A » avec son adresse postale, le numéro de téléphone de son standard et un courriel de contact générique « compagnie1[@]email.fr ») ne sont pas, en principe, des données personnelles.

DONNÉE SENSIBLE

Les données sensibles forment une catégorie particulière des données personnelles.

Ce sont des informations qui révèlent la prétendue origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d'identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique. 

Le règlement européen interdit de recueillir ou d’utiliser ces données, sauf, notamment, dans les cas suivants :

  • Si la personne concernée a donné son consentement exprès (démarche active, explicite et de préférence écrite, qui doit être libre, spécifique, et informée) ;
  • Si les informations sont manifestement rendues publiques par la personne concernée ;
  • Si elles sont nécessaires à la sauvegarde de la vie humaine ;
  • Si leur utilisation est justifiée par l'intérêt public et autorisé par la CNIL ;
  • Si elles concernent les membres ou adhérents d'une association ou d'une organisation politique, religieuse, philosophique, politique ou syndicale. 

DROIT À L’INFORMATION

Toute personne a un droit de regard sur ses propres données ; par conséquent, quiconque met en œuvre un fichier ou un traitement de données personnelles est obligé d’informer les personnes fichées de son identité, de l’objectif de la collecte d’informations et de son caractère obligatoire ou facultatif, des destinataires des informations, des droits reconnus à la personne, des éventuels transferts de données vers un pays hors de l’Union européenne.

DROIT AU DÉRÉFÉRENCEMENT

Dans un arrêt du 13 mai 2014, la Cour de Justice de l’Union européenne a confirmé que les moteurs de recherche sont responsables de traitement. À ce titre, ils doivent respecter le droit européen à la protection des données personnelles. Désormais les personnes peuvent leur demander directement de désindexer une page web associée à leurs nom et prénom. Ce déréférencement ne signifie pas l’effacement de l’information sur le site internet source. Le contenu original reste ainsi inchangé et est toujours accessible via les moteurs de recherche en utilisant d’autres mots-clés de recherche ou en allant directement sur le site à l’origine de la diffusion.

DROIT D’ACCÈS

Toute personne peut prendre connaissance de l’intégralité des données la concernant dans un fichier en s’adressant directement à ceux qui les détiennent et en obtenir une copie gratuitement. En savoir plus sur le droit d'accès

DROIT D’ACCÈS INDIRECT

Toute personne peut demander que la CNIL vérifie les renseignements qui peuvent la concerner dans les fichiers intéressant la sûreté de l’État, la Défense et la Sécurité publique. Connaître vos droits

DROIT DE RECTIFICATION

Toute personne peut faire rectifier, compléter, actualiser, verrouiller ou effacer des informations la concernant lorsqu’ont été décelées des erreurs, des inexactitudes ou la présence de données dont la collecte, l’utilisation, la communication ou la conservation est interdite.

DROIT D’OPPOSITION

Toute personne a la possibilité de s’opposer, pour des motifs légitimes, à figurer dans un fichier, et peut refuser sans avoir à se justifier, que les données qui la concernent soient utilisées à des fins de prospection commerciale. Connaître vos droits

DRONE

Un drone est au sens strict un appareil sans pilote à bord. Il est généralement piloté à distance par un opérateur humain, mais peut avoir un degré plus ou moins important d’autonomie (par exemple pour éviter des collisions ou gérer les conditions aérologiques). Un drone est avant tout une plateforme de capteurs mobiles. C’est un engin d’observation, d’acquisition et de transmission de données géolocalisées.

E
ÉCHANTILLON (IA)

Dans le domaine de l’intelligence artificielle, l’échantillon est une fraction représentative d'une population ou d'un univers statistique.

ENSEMBLE DE TEST (IA)

Jeu de données utilisé lors de la phase de test.

ENSEMBLE DE VALIDATION (IA)

Jeu de données utilisé lors de la phase de validation.

ENSEMBLE D’ENTRAÎNEMENT/D’APPRENTISSAGE

Jeu de données (texte, sons, images, listes, etc.) utilisé lors de la phase d’entrainement / d’apprentissage : le système s’entraîne sur ces données pour effectuer la tâche attendue de lui.

ENT (ESPACE NUMÉRIQUE DE TRAVAIL)

Tout ensemble intégré de services numériques choisis et mis à disposition de tous les acteurs de la communauté éducative d’un ou plusieurs établissements de l’enseignement scolaire ou de l’enseignement supérieur dans un cadre de confiance défini par un schéma directeur des espaces numériques de travail (SDET)  […] l’ENT constitue un point d’entrée unifié permettant à l’utilisateur d’accéder, selon son profil et son niveau d’habilitation, aux services et contenus numériques dont il dispose.

ENTRAÎNEMENT (OU APPRENTISSAGE)

L’entraînement est le processus de l’apprentissage automatique pendant lequel le système d’intelligence artificielle construit un modèle à partir de données.

ENVIRONNEMENT D’EXÉCUTION DE CONFIANCE

Les Trusted Execution Environnement, ou environnement d’exécution de confiance, sont des zones sécurisées et isolées des autres environnements d’exécution situés dans un processeur. Les TEE garantissent que des données confidentielles restent stockées, traitées et protégées dans un environnement de confiance.

ENVIRONNEMENT « LOGGUÉ » OU AUTHENTIFIÉ

Un environnement « loggué » est un site dans lequel l’utilisateur est authentifié par un compte utilisateur qu’il a volontairement créé.

C’est le cas, par exemple, de nombreux réseaux sociaux, de services de courriel, etc. Si le traceur permettant d’authentifier l’utilisateur pour le simple accès au service n’est pas soumis au consentement, toute autre utilisation de tels traceurs à des finalités autres (par exemple publicitaires) est soumise aux mêmes règles que dans les environnements non « loggués ».

ESTIMATION BAYÉSIENNE

L’estimation ou inférence bayésienne s’appuie sur un théorème énoncé par le mathématicien Thomas Bayes. Ce théorème donne une méthode pour calculer la probabilité d’un phénomène grâce à la connaissance de certaines informations. L’estimation bayésienne est donc la méthode qui s’appuie sur ce raisonnement.

Exemple : sachant d’une part que mes chaussures sont peu adhérentes, et d’autre part qu’il a plu, le risque de glisser lors de mon trajet au travail ce matin est élevé.

EXÉCUTION « EN BAC À SABLE » OU « SANDBOXING »

L’exécution en mode « bac à sable » ou « sandboxing » est un mécanisme de sécurité mis en œuvre par un système d’exploitation pour isoler une application exécutée vis-à-vis du cœur du système d’exploitation mais aussi des autres applications exécutées sur le terminal. Cette isolation permet de réduire le risque qui pourrait être lié à l’abus de fonctionnalités du terminal, mais aussi à des tentatives d’une application pour accéder à des données ou perturber le fonctionnement d’une application tierce. En général, les applications s’exécutant en mode « bac à sable » ont des fonctionnalités par défaut assez réduites, n’ayant la possibilité d’utiliser que des API fournies par l’OS, sous réserve de l’obtention d’une permission de l’utilisateur.

EXPLICABILITÉ (IA)

Dans le domaine de l'intelligence artificielle, l’explicabilité est la capacité de mettre en relation et de rendre compréhensible les éléments pris en compte par le système d’IA pour la production d’un résultat.

Il peut s’agir, par exemple, des variables d’entrée et de leurs conséquences sur la prévision d’un score, et ainsi sur la décision.

Les explications doivent être adaptées au niveau de compréhension de la personne auxquelles elles sont destinées.

EXTRACTION DE CARACTÉRISTIQUES (FEATURE EXTRACTION)

Dans le domaine de l’intelligence artificielle, l’extraction de caractéristiques est l’étape au cours de laquelle sont induites depuis des données brutes (fichier son, image, document textuel, tableau numérique, etc.) des caractéristiques (features) sur lesquelles le système d’IA doit se reposer pour effectuer la tâche pour laquelle il est programmé.

La définition de ces caractéristiques et leur nature discriminante sont essentielles.

F
FICHIER

Un fichier est un traitement de données qui s'organise dans un ensemble stable et structuré de données. Les données d'un fichier sont accessibles selon des critères déterminés.

FINALITÉ D’UN TRAITEMENT

La finalité du traitement est l’objectif principal de l’utilisation de données personnelles.

Les données sont collectées pour un but bien déterminé et légitime et ne sont pas traitées ultérieurement de façon incompatible avec cet objectif initial. Ce principe de finalité limite la manière dont le responsable de traitement peut utiliser ou réutiliser ces données dans le futur.

Exemples de finalité : gestion des recrutements, gestion des paies, gestion des clients, enquête de satisfaction, surveillance des locaux, etc.

Termes simplifiés à privilégier : objectif, objet, raison, etc.

FINGERPRINTING

Le fingerprinting, ou « prise d’empreinte » est une technique probabiliste visant à identifier un utilisateur de façon unique sur un site web ou une application mobile en utilisant les caractéristiques techniques de son navigateur.

Le matériel dont se sert l’utilisateur pour se connecter fournit un certain nombre d’informations au serveur, par exemple la taille de l’écran ou le système d’exploitation. Ces informations, si elles sont suffisamment nombreuses, peuvent permettre distinguer les individus entre eux et de les suivre de manière similaire aux cookies. Les mécanismes de gestion ou blocage des cookies ne permettent pas de s’opposer à cette technique : il faut mobiliser d’autres techniques peu accessibles (comme une extension qui modifie aléatoirement les paramètres transmis par le navigateur).

FONCTION D’ACTIVATION

Dans le domaine de l’intelligence artificielle, la fonction d’activation peut être vu comme l’équivalent du « potentiel d'activation » qu’on retrouve dans les neurones biologiques.

Cette fonction détermine si un neurone artificiel doit être activé ou pas et, dans le premier cas, le degré de cette activation.

Il existe plusieurs fonctions apportant chacune des comportements différents (sigmoïde, tangente hyperbolique, ReLU, etc.).

FONCTION DE PERTE OU DE COÛT (LOSS FUNCTION)

Dans le domaine de l’intelligence artificielle, la fonction de perte ou de coût est la quantification de l’écart entre les prévisions du modèle et les observations réelles du jeu de donnée utilisé pendant l’entraînement.

La phase d’entraînement vise à trouver les paramètres du modèle qui permettront de minimiser cette fonction.

FORCE BRUTE (ATTAQUE INFORMATIQUE)

Une attaque par force brute (bruteforce attack) consiste à tester, l’une après l’autre, chaque combinaison possible d’un mot de passe ou d’une clé pour un identifiant donné afin se connecter au service ciblé.

Il s’agit d’une méthode ancienne et répandue chez les pirates. Le temps nécessaire à celle-ci dépend du nombre de possibilités, de la vitesse que met l’attaquant pour tester chaque combinaison et des défenses qui lui sont opposées.

Ce type d’attaque étant relativement simple, un organisme peut disposer de systèmes permettant de se protéger de ce type de comportement. La première ligne du système de défense est le blocage de comptes après un nombre limité d’échecs d’authentification pour un même identifiant.

Le fonctionnement de l’attaque par force brute est proche de l’attaque par credential stuffing, mais est moins élaborée.

FORMALITÉS PRÉALABLES

Ensemble des formalités déclaratives à effectuer auprès de la CNIL avant la mise en œuvre d’un traitement de données personnelles ; selon les cas, il peut s’agir d’une déclaration ou d’une demande d’autorisation.

FORMATION RESTREINTE

La formation restreinte de la CNIL est composée de 5 membres et d’un Président distinct du Président de la CNIL. Elle peut prononcer diverses sanctions à l’égard des responsables de traitement qui ne respecteraient pas la loi. Avec le RGPD (Règlement Général sur la Protection des Données), le montant des sanctions pécuniaires peut s’élever jusqu’à 20 millions d’euros, ou dans le cas d’une entreprise, jusqu’à 4 % du chiffre d’affaires annuel mondial. Ces sanctions pécuniaires peuvent être rendues publiques.

FRAUDE AU CLIC

La fraude au clic est une création artificielle de clics (que ce soit par des humains ou des programmes) sur des contenus publicitaires ou des liens d’affiliations par des éditeurs. Ces éditeurs reçoivent alors des paiements relatifs aux clics générés. Il est également possible que ces clics frauduleux soient produits par les concurrents des annonceurs afin de leur faire dépenser leur budget marketing inutilement. La plupart des plateformes publicitaires incluent des mécanismes pour détecter ces pratiques.

G
G29

L’article 29 de la directive du 24 octobre 1995 sur la protection des données et la libre circulation de celles-ci a institué un groupe de travail rassemblant les représentants de chaque autorité indépendante de protection des données nationale. Cette organisation réunissant l’ensemble des CNIL européennes a pour mission de contribuer à l’élaboration des normes européennes en adoptant des recommandations, de rendre des avis sur le niveau de protection dans les pays tiers et de conseiller la Commission européenne sur tout projet ayant une incidence sur les droits et libertés des personnes physiques à l’égard des traitements de données personnelles. Le G29 se réunit à Bruxelles en séance plénière tous les deux mois environ.

GÉOLOCALISATION

Technologie permettant de déterminer la localisation d’un objet ou d’une personne avec une certaine précision. La technologie s’appuie généralement sur le système GPS ou sur les interfaces de communication d’un téléphone mobile. Les applications et finalités de la géolocalisation sont multiples : de l’assistance à la navigation, à la mise en relation des personnes, mais aussi à la gestion en temps réel des moyens en personnel et en véhicules des entreprises, etc.

GRADIENT

Le gradient est, en mathématiques, un vecteur représentant la variation d’une fonction au voisinage d’un point donné (en pratique, lorsqu’on dessine une courbe, plus le gradient est élevé, plus la « pente » de la courbe est forte).

Appliqué au cas de l’apprentissage d’un modèle d’IA, le gradient est utilisé pour mettre en œuvre l’algorithme de descente de gradient (ou algorithme de la plus forte pente). Ce dernier permet d’obtenir un résultat optimal selon certains critères (par exemple : minimisation d’une fonction de perte), de manière itérative, c’est-à-dire par une succession d’étapes.

Différentes stratégies existent pour réaliser la descente de gradient qui mobilisent des ensembles de données différents (batch gradient descent, mini-batch gradient descent, stochastic gradient descent, etc.).

H
HACHAGE

L’utilisation d’une fonction de hachage permet de ne pas stocker les mots de passe en clair dans la base mais uniquement de stocker une empreinte de ces derniers. Il est important d’utiliser un algorithme public réputé fort afin de calculer les dites empreintes. A ce jour, MD5 ne fait plus partie des algorithmes réputés forts.

De même, les fonctions de hachage publiques réputées fortes étant par nature à la disposition de tous, il est techniquement possible pour tout un chacun de calculer des empreintes. Aujourd’hui, on trouve facilement sur internet des dictionnaires immenses d’empreintes MD5 précalculées et, grâce à ces données, il est aisé de retrouver instantanément le mot de passe ayant été utilisé afin de générer ces empreintes. Afin de limiter ce risque, il est conseillé d’utiliser des fonctions spécialisées appelées « fonction de dérivation de clé », telles que scrypt ou Argon2 par exemple, qui sont conçues spécifiquement pour stocker des mots de passe.

HEADER BIDDING

En raison de la forte fragmentation du marché publicitaire, et pour maximiser le revenu des inventaires disponibles, certains éditeurs utilisent la technique du « header bidding » qui consiste à intégrer dans la page web du code permettant de proposer l’inventaire disponible à plusieurs supply-side platforms (SSP) et Ad Exchange avant de sélectionner le plus offrant.

Cette méthode permet donc à l’éditeur d’organiser une mise en concurrence des différents réseaux publicitaire lors de la vente de son inventaire et donc de maximiser ses revenus. Cette technique peut cependant ajouter beaucoup de latence au chargement des pages.

HYPERPARAMÈTRE

Élément indépendant de l’apprentissage tels que le nombre de nœuds et la taille des couches cachées du réseau de neurones, l’initialisation des poids, le coefficient d’apprentissage, la fonction d’activation, etc.

I
IDENTIFIANT PUBLICITAIRE

Les identifiants publicitaires sont des identifiants numériques, souvent représentés sous forme de chaînes de caractères, générés et associés à un terminal par l’OS, et qui peuvent, sous certaines conditions dépendantes de l’OS en question, être mises à disposition des applications qui en font la demande. Ces identifiants sont spécifiquement conçus pour permettre l’identification d’un unique utilisateur par différentes applications, identification rendue en dehors de celui-ci impossible par l’exécution en mode « bac à sable » (« sandboxing ») des applications. Cette identification permet notamment le ciblage publicitaire. Par exemple, si un utilisateur est connecté sur un réseau social depuis son téléphone et que des applications tierces embarquent le module de ciblage de ce réseau social, l’accès à l’identifiant publicitaire permettra d’utiliser les données relatives au profil de la personne pour cibler de la publicité dans le contexte de ces applications tierces.

IMPRESSION

L’impression est l’affichage d’un contenu publicitaire à un utilisateur. Le nombre d’impressions est un indicateur notamment utilisé dans la publicité.

INJECTION SQL

L’injection SQL est une technique permettant d’injecter des éléments, notamment du code de type SQL (Structured Query Language, langage utilisé pour manipuler les bases de données), dans les champs des formulaires web ou dans les liens des pages afin de les envoyer au serveur web. De cette façon, les attaquants outrepassent les contrôles de sécurité et parviennent à afficher ou à modifier des éléments présents dans une base de données, par exemple des mots de passe ou des coordonnées bancaires. L’injection SQL permet ainsi l’accès à toutes les données personnelles (par exemple, des identités ou coordonnées d’utilisateurs ou d’employés) ou non personnelles (les articles présents, les prix de ces derniers, etc.), contenues dans une base de données SQL.

INJONCTION SOUS ASTREINTE

Une injonction sous astreinte est un ordre de se mettre en conformité accompagné d'une somme à payer en cas de non-respect de la décision. La décision qui force le paiement de cette somme s'appelle une liquidation d'astreinte.

Exemple : la CNIL prononce une amende à l'encontre d'un organisme X ainsi qu'une injonction sous astreinte de 100 euros par jour de retard en lui laissant deux mois pour se mettre en conformité.

Si l'organisme X attend 2 mois et 10 jours avant de se mettre en conformité, il devra payer 1 000 euros (10 jours de retard fois 100 euros).

INTELLIGENCE ARTIFICIELLE

L’intelligence artificielle est un procédé logique et automatisé reposant généralement sur un algorithme et en mesure de réaliser des tâches bien définies. Pour le Parlement européen, constitue une intelligence artificielle tout outil utilisé par une machine afin de « reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité ». Plus précisément, la Commission européenne considère que l’IA regroupe :

  • Les approches d’apprentissage automatique ;
  • Les approches fondées sur la logique et les connaissances ; et
  • Les approches statistiques, l’estimation bayésienne, et les méthodes de recherche et d’optimisation.

INTERFACE DE PROGRAMMATION D’APPLICATION (API)

Une API (application programming interface ou « interface de programmation d’application ») est une interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités.

Les API offrent de nombreuses possibilités, comme la portabilité des données, la mise en place de campagnes de courriels publicitaires, des programmes d’affiliation, l’intégration de fonctionnalités d’un site sur un autre ou l’open data. Elles peuvent être gratuites ou payantes.

INVENTAIRE

L’inventaire désigne un espace publicitaire réservé (par exemple l’emplacement d’une bannière en haut d’une page web) qui est vendu par l’éditeur. Ces espaces ne sont généralement pas mis sur le marché directement par l’éditeur, mais par les supply-side plaforms (SSP) qui en organisent la vente.

K
KIT DE DÉVELOPPEMENT LOGICIEL OU SDK (« SOFTWARE DEVELOPMENT KIT »)

Le kit de développement logiciel désigne un ensemble d'outils utilisés pour le développement de l’application, en fonction du système d’exploitation utilisé. Cette pratique, extrêmement développée dans l’écosystème mobile, est notamment due au fait que les SDK permettent le plus souvent de faciliter ou d’accélérer le développement de fonctionnalités logicielles, en évitant au développeur d’écrire l’intégralité du code de l’application. Ces SDK sont en général intégrés par l’ajout du code offert par ceux-ci dans l’application développée, code qui va éventuellement permettre de s’interfacer avec l’infrastructure du fournisseur de SDK pour mettre en œuvre la fonctionnalité. Ils recouvrent de nombreuses fonctionnalités, mais les plus fréquentes sont l’analyse d’audience (« analytics »), la sélection et la diffusion de publicités ou les fonctionnalités de commerce électronique.

L
L’ATRUISME EN MATIÈRE DE DONNÉES (DATA ALTRUISM)

L’altruisme en matière de données, ou data altruism en anglais, est une notion en gouvernance des données.

Il consiste à inciter les parties prenantes (entreprises, particuliers, etc.) à partager les données qu’elles estiment utiles pour l’intérêt général.

LISTES D’OPPOSITION

Les listes d’opposition recensent les personnes qui ont fait connaître leur opposition à être prospectées dans le cadre d’opérations de marketing.

M
MESURE D’AUDIENCE (« ANALYTICS »)

La gestion d’un site web ou d’une application mobile peut impliquer dans de nombreux cas l’utilisation de services permettant de collecter des statistiques de fréquentation ou de performance, en général regroupées sous le terme de mesure d’audience ou d’« analytics ». Ces outils peuvent en pratique être de natures très diverses, allant de mesures très simples qui peuvent parfois se révéler indispensables pour la bonne gestion du service à des outils proposant des fonctionnalités complexes d’analyse, telles que de les « tests A/B » ou « AB testing » (présentant différentes versions du site à différents utilisateurs), des cartes de chaleur ou « heatmap » (présentant l’agrégation des navigations des utilisateurs) ou du rejeu de session (permettant de visualiser le parcours d’un utilisateur unique). Certains outils commerciaux (d’analyse des sources de trafic ou de publicité ciblée) sont parfois abusivement présentés comme des solutions de mesure d’audience.

MINIMISATION

Le principe de minimisation prévoit que les données à caractère personnel doivent être adéquatespertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées.

Exemple : Collecter et conserver le statut marital d’un salarié n’apparaît pas nécessaire à l’activité RH.

Termes simplifiés à privilégier : restriction, limitation au strict nécessaire.

MISE EN DEMEURE

Une décision de la Présidente de la CNIL qui énumère les manquements reprochés à l’organisme mis en cause ainsi que les mesures qu’il doit prendre, pour se mettre en conformité dans un délai fixé. À ce stade, la procédure de sanction n’est pas encore engagée. En cas de conformité dans le délai fixé, la procédure est clôturée. À défaut, la Présidente de la CNIL peut désigner un rapporteur qui pourra proposer à la formation restreinte de prononcer une sanction. La mise en demeure peut être rendue publique.

MISE EN DEMEURE

Une décision de la Présidente de la CNIL qui énumère les manquements reprochés à l’organisme mis en cause ainsi que les mesures qu’il doit prendre, pour se mettre en conformité dans un délai fixé. À ce stade, la procédure de sanction n’est pas encore engagée. En cas de conformité dans le délai fixé…

MODÈLE DE LANGAGE

Modèle statistique de la distribution d’unité linguistiques (par exemple : lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots. On parle de modèles de langage de grande taille ou « Large Language Models » (LLM) en anglais pour les modèles possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus) comme GPT-3, BLOOM, Megatron NLG, Llama ou encore PaLM.

MODÈLE DISCRIMINATIF

Modèle capable de réaliser une prédiction quant à l'appartenance à une classe pour des données nouvelles sur la base d'un apprentissage réalisé auparavant sur un jeu de données d’entraînement.

MODÈLE GÉNÉRATIF

Modèle défini par opposition à un modèle discriminatif. Il permet à la fois de générer de nouveaux exemples à partir des données d'entraînement et d'évaluer la probabilité qu'un nouvel exemple provienne ou ait été généré à partir des données d'entraînement.

MODÈLE (IA)

Le modèle d'IA est la construction mathématique générant une déduction ou une prédiction à partir de données d’entrée. Le modèle est estimé à partir de données annotées lors de la phase d’apprentissage (ou d’entraînement) du système d’IA.

N
NEURONE ARTIFICIEL

Un neurone artificiel fonctionne d’une manière inspirée de celle d’un neurone biologique : un nœud d'un réseau de plusieurs neurones reçoit généralement plusieurs valeurs d'entrée et génère une valeur de sortie.

Le neurone calcule la valeur de sortie en appliquant une fonction d'activation à une somme pondérée des valeurs d'entrée.

NIR (NUMÉRO D’INSCRIPTION AU RÉPERTOIRE)

Le NIR ou numéro de sécurité sociale est attribué à chaque personne à sa naissance sur la base d’éléments d’état civil transmis par les mairies à l’INSEE.

O
OPEN DATA

L’open data désigne un mouvement, né en Grande-Bretagne et aux États-Unis, d’ouverture et de mise à disposition des données produites et collectées par les services publics (administrations, collectivités locales…). Découvrir l'open data

P
PARAMÈTRE (IA)

Dans le domaine de l'intelligence artificielle, le paramètre est la propriété apprise des données utilisées pour l’entraînement (par exemple le poids de chaque neurone d’un réseau).

PARTITIONNEMENT DE DONNÉES

Le partitionnement de données (clustering en anglais) est une méthode ayant pour but de diviser un ensemble de données en différents sous-ensembles homogènes, c’est-à-dire partageant des caractéristiques communes.

Ces caractéristiques reposent sur des critères de proximité définis en introduisant la notion de distance entre les objets.

PERMISSION D’ACCÈS

Les permissions d’accès sont des dispositifs mis en œuvre par les OS des terminaux mobiles pour permettre aux utilisateurs de choisir quelles fonctionnalités sont accessibles aux applications mobiles. Ces applications mobiles n’ont en effet par défaut qu’un accès limité à ces fonctionnalités, pour des raisons de sécurité et de protection de la vie privée. L’OS met dès lors à leur disposition des API leur permettant d’effectuer des requêtes afin de se voir autoriser des fonctionnalités additionnelles, sous réserve que l’utilisateur, via une interface fournie par l’OS, l’accepte.

PERSONNALISATION DE CONTENUS ÉDITORIAUX

Cette pratique consiste à personnaliser les contenus du site visité par l’utilisateur en fonction d’informations sur cet utilisateur.

En général mis en place par l’éditeur du site lui-même, une telle personnalisation repose sur l’utilisation de traceurs pour identifier un utilisateur unique et retenir les typologies de pages les plus visitées. Bien que ne relevant pas de la publicité ciblée, l’utilisation de traceurs à cette fin reste soumise au consentement utilisateur.

PNR ( PASSENGER NAME RECORD )

Il s’agit des informations collectées auprès des passagers aériens au stade de la réservation commerciale. Elles permettent d’identifier, entre autres : l’itinéraire du déplacement, les vols concernés, le contact à terre du passager (numéro de téléphone au domicile, professionnel, etc.), les tarifs accordés, l’état du paiement effectué, le numéro de carte bancaire du passager, ainsi que les services demandés à bord tels que des préférences alimentaires spécifiques (végétarien, asiatique, cascher, etc.) ou des services liés à l’état de santé du passager.

PORTE DÉROBÉE OU BACKDOOR

Le principe de la mise en œuvre d’une « Backdoor » ou porte dérobée correspond à prévoir un accès tenu secret vis-à-vis de l’utilisateur légitime aux données contenues dans un logiciel ou sur un matériel. Le principe de la mise en œuvre d’une « Master Key » ou « clé maître » correspond à prévoir ouvertement un tel accès, mis en œuvre via cette clé, aux données chiffrées contenues dans un logiciel ou sur un matériel.

PRIVACY SHIELD

Le Privacy Shield (Bouclier de protection des données en français), était un mécanisme d'auto-certification pour les sociétés établies aux Etats-Unis d'Amérique.

Ce dispositif avait été reconnu par la Commission européenne comme offrant un niveau de protection adéquat aux données personnelles transférées depuis une entité européenne vers des sociétés établies aux États-Unis. Le Privacy Shield UE-États-Unis était entré en vigueur le 1er août 2016.

La décision d'adéquation de la Commission européenne validant le Privacy Shield a été annulée par la Cour de Justice de l'Union Européenne (CJUE) le 16 juillet 2020 (arrêt dit « Schrems II »). Il ne constitue plus une garantie juridique suffisante pour transmettre des données personnelles de l'Union européenne vers les États-Unis.

PUBLICITÉ CIBLÉE

La publicité ciblée (ou personnalisée) est une technique publicitaire qui vise à identifier les personnes individuellement afin de leur diffuser des messages publicitaires spécifiques en fonction de caractéristiques individuelles.

Elle nécessite donc de connaître la personne consultant la publicité et de disposer d’informations sur elle afin de choisir un contenu publicitaire plus susceptible de la faire interagir, par exemple concernant l’un de ses centres d’intérêt supposés ou une intention d’achat. Pour cela, les acteurs de la publicité constituent des « profils » qui sont associés aux utilisateurs.

Sur Internet, ces informations sur les intérêts de la personne sont souvent obtenues via des traceurs comme des cookies, ou bien sont achetées à des tiers. En raison de l’impossibilité de traiter toutes ces informations manuellement, la publicité ciblée est presque exclusivement programmatique.

PUBLICITÉ CONTEXTUELLE

La publicité contextuelle est une technique publicitaire qui vise à diffuser sur un support (web, télévision) des publicités choisies en fonction du contexte dans lequel le contenu publicitaire est inséré.

Par exemple, les constructeurs automobiles vont préférer placer leurs contenus publicitaires dans un journal spécialisé sur les automobiles.

Cette technique publicitaire est loin d’être nouvelle puisqu’elle est historiquement employée dans les médias papier, audiovisuels ou par affichage. L’intérêt de ce type de publicité est qu’il ne nécessite pas de disposer d’informations sur la personne consultant la publicité.

Sur Internet, la gestion de ces publicités peut néanmoins nécessiter d’utiliser des traceurs, comme des cookies de capping ou de lutte contre la fraude au clic pour être correctement valorisée.

PUBLICITÉ PROGRAMMATIQUE

Pour la diffusion de campagnes publicitaires, notamment ciblées, l’achat d’inventaires ne peut généralement pas se faire au cas par cas. La publicité programmatique permet donc de planifier l’achat automatique d’éléments d’inventaire selon des critères prédéfinis (prix, caractéristiques de l…

Q
QUANTIFIED SELF

Le quantified self désigne la pratique de la « mesure de soi » et fait référence à un mouvement né en Californie qui consiste à mieux se connaître en mesurant des données relatives à son corps et à ses activités.

R
REAL-TIME BIDDING (RTB) OU « ENCHÈRES EN TEMPS RÉEL »

Le real-time bidding est un type de publicité programmatique qui repose sur la mise aux enchères de chaque impression de manière indépendante.

Lorsqu’un utilisateur consulte une page web avec un espace publicitaire, celui-ci est mis aux enchères à un ensemble d’acheteurs potentiels. Ces derniers peuvent consulter des informations sur l’utilisateur et les croiser avec l’éventuel profil publicitaire qu’ils détiennent sur lui pour évaluer l’intérêt d’afficher une publicité à son attention et donc déterminer le prix qu’ils sont éventuellement prêts à payer pour cela. Le publicitaire avec l’enchère la plus haute l’emporte et peut donc afficher sa publicité à l’utilisateur. Ce processus prend en général quelques centaines de millisecondes.

RECONNAISSANCE D’ENTITÉS NOMMÉES

En anglais « Named-entity recognition » (NER), sous-tâche d’extraction d’informations qui cherche à localiser et classifier les mentions d’entités nommées dans du texte non structuré en catégories prédéfinies, emplacements, codes médicaux, expressions de temps, quantités, valeurs monétaires, pourcentages, etc.

RECONNAISSANCE FACIALE

La reconnaissance faciale est une technique qui permet à partir des traits de visage :

  • D’authentifier une personne : c’est-à-dire, vérifier qu’une personne est bien celle qu’elle prétend être (dans le cadre d’un contrôle d’accès)
  • Ou
  • D’identifier une personne : c’est-à-dire, de retrouver une personne au sein d’un groupe d’individus, dans un lieu, une image ou une base de données.

En pratique, la reconnaissance peut être réalisée à partir d’images fixes (photos) ou animées (enregistrements vidéo) et se déroule en deux phases :

  1. A partir de l’image, un modèle ou « gabarit » qui représente, d’un point de vue informatique, les caractéristiques de ce visage est réalisé. Les données extraites pour constituer ce gabarit sont des données biométriques au sens du RGPD (article 4-14).
  2. La phase de reconnaissance est ensuite réalisée par la comparaison de ces modèles préalablement réalisés avec les modèles calculés en direct sur des visages présents sur l’image candidate.

Dans le cas de l’authentification, le système vérifie si l'identité prétendue est bien la bonne en comparant le modèle du visage présenté au modèle préalablement enregistré correspondant à l’identité prétendue.

Dans le cas de l’identification, le système vérifie si le modèle du visage présenté correspond à l’un des modèles contenus dans la base de données. Les résultats de la comparaison correspondent à celui ou ceux présentant le score de similarité le plus élevé parmi ceux dépassant un certain seuil prédéterminé.

La reconnaissance faciale ne doit pas être confondue avec la détection de visage qui caractérise la présence ou non d’un visage dans une image indépendamment de la personne à qui il appartient.

Cette technologie n’en est désormais plus à ses balbutiements. Les enjeux de protection des données et les risques d’atteintes aux libertés individuelles que de tels dispositifs sont susceptibles d’induire sont considérables, dont notamment la liberté d’aller et venir anonymement. Tout projet d’y recourir devra à tout le moins faire l’objet d’une analyse d’impact relative à la protection des données (AIPD).

RÉDUCTION DE DIMENSION OU DIMENSIONNALITÉ

Méthode permettant de diminuer la quantité d’information en ne conservant que le strict nécessaire, permettant ainsi d'obtenir plus d'efficacité en termes de résultats et de temps d'analyse.

Cette réduction de l’information utile peut se faire par sélection des caractéristiques les plus pertinentes ou par création de nouvelles caractéristiques plus appropriées que celles de départ.

REGISTRE DES ACTIVITÉS DE TRAITEMENT

Le registre des activités de traitement permet de recenser vos traitements de données et de disposer d’une vue d’ensemble de ce que le responsable de traitement fait avec les données personnelles. Il permet notamment d’identifier :

  • Les parties prenantes ;
  • Les catégories de données traitées ;
  • A quoi servent ces données, qui y accède et à qui elles sont communiquées ;
  • Combien de temps les données personnelles sont conservées ;
  • Comment elles sont sécurisées.

Terme simplifié à privilégier : liste des fichiers.

RÉGRESSION

La régression est un ensemble de méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

RÉSEAU DE NEURONES ARTIFICIELS (ARTIFICIAL NEURAL NETWORK)

Dans le domaine de l’intelligence artificielle, un réseau de neurones artificiels est un ensemble organisé de neurones interconnectés permettant la résolution de problèmes complexes tels que la vision par ordinateur ou le traitement du langage naturel.

Il s’agit d’un type particulier d’algorithmes d’apprentissage automatique (comme les machines à vecteur de support (SVM en anglais), arbres de décision, K plus proches voisins, etc.) caractérisés par un grand nombre de couches de neurones, dont les coefficients de pondération sont ajustés au cours d’une phase d’entraînement (apprentissage profond).

Il existe de nombreux type de réseaux de neurones artificiels tels que les réseaux de neurones récurrents, les auto-encodeurs, les réseaux transformeurs ou encore les réseaux antagonistes génératifs (generative adversarial networks).

RESPONSABLE DE TRAITEMENT

Le responsable de traitement est la personne morale (entreprise, commune, etc.) ou physique qui détermine les finalités et les moyens d’un traitement, c’est à dire l’objectif et la façon de le réaliser. En pratique et en général, il s’agit de la personne morale incarnée par son représentant légal.

RETARGETING OU « RECIBLAGE »

Le retargeting est une technique de publicité ciblée dans laquelle les informations collectées sur l’utilisateur servent à identifier un produit ou service pour lequel il a exprimé un intérêt (par exemple en visitant un site de e-commerce ou bien en ajoutant un objet à son panier).

Une fois cet intérêt identifié, des publicités relatives à celui-ci sont alors proposées à l’utilisateur, afin de l’inciter à finaliser son acte d’achat.

RFID (RADIO FREQUENCY IDENTIFICATION)

Les puces RFID permettent d’identifier et de localiser des objets ou des personnes. Elles sont composées d’une micropuce (également dénommée étiquette ou tag) et d’une antenne qui dialoguent par ondes radio avec un lecteur, sur des distances pouvant aller de quelques centimètres à plusieurs dizaines de mètres. Pour les applications dans la grande distribution, leur coût est d’environ 5 centimes d’euros. D’autres puces communicantes, plus intelligentes ou plus petites font leur apparition avec l’avènement de l’internet des objets. Certains prototypes sont quasi invisibles (0,15 millimètre de côté et 7,5 micromètres d’épaisseur) alors que d’autres, d’une taille de 2 mm2, possèdent une capacité de stockage de 512 Ko (kilo-octets) et échangent des données à 10Mbps (méga bits par seconde).

ROBUSTESSE (IA)

Dans le domaine de l’intelligence artificielle, la résilience est la capacité du système à maintenir sa conformité à des exigences de performance et/ou de sécurité en présence de données d’entrée extérieures à son domaine d’emploi (par exemple en raison d’un défaut sur un capteur).

S
SANCTION

À l'issue de contrôle ou de plaintes, en cas de méconnaissance des dispositions du RGPD ou de la loi de la part des responsables de traitement et des sous-traitants, la formation restreinte de la CNIL ou son président peuvent prononcer des sanctions à l'égard des responsables de traitements qui ne respecteraient pas ces textes.

Concernant la procédure ordinaire, avec le RGPD (règlement général sur la protection des données), le montant des sanctions pécuniaires peut s’élever jusqu’à 20 millions d’euros ou dans le cas d’une entreprise jusqu’à 4 % du chiffre d’affaires annuel mondial. Ces sanctions peuvent être rendues publiques.

Lorsque des manquements au RGPD ou à la loi sont portés à sa connaissance, la formation restreinte de la CNIL peut :

  • Prononcer un rappel à l’ordre ;
  • Enjoindre de mettre le traitement en conformité, y compris sous astreinte ;
  • Limiter temporairement ou définitivement un traitement ;
  • Suspendre les flux de données ;
  • Ordonner de satisfaire aux demandes d'exercice des droits des personnes, y compris sous astreinte ;
  • Prononcer une amende administrative.

Concernant la procédure simplifiée, la loi Informatique et Libertés prévoit des sanctions moins nombreuses et moins sévères que celles encourues dans la procédure ordinaire. Ces sanctions ne peuvent par ailleurs jamais être rendues publiques.

Dans ce cadre, le président de la formation restreinte peut :

  • Prononcer un rappel à l’ordre ;
  • Enjoindre de mettre le traitement en conformité, y compris sous astreinte d’un montant maximal de 100 € par jour de retard ;
  • Prononcer une amende administrative d’un montant maximal de 20 000 €.

SÉANCE PLÉNIÈRE

C’est la formation qui réunit les 17 membres de la CNIL pour se prononcer sur des traitements ou des fichiers et examiner des projets de loi ou de décrets soumis pour avis par le Gouvernement.

SEGMENTATION DES DONNÉES

La segmentation des données est une méthode permettant la division d’un corpus de données en plusieurs ensembles (par exemple d’entraînement, de validation et de test), soit à partir de critères objectifs (date, âge, etc.) soit de manière aléatoire.

SERVICES D’INTERMÉDIATION DE LA DONNÉE

Les services d’intermédiation de la donnée sont un modèle commercial visé par le Data Governance Act qui a pour objectif de permettre aux entreprises et particuliers de partager des données.

Ces services peuvent prendre par exemple la forme de plateformes numériques permettant le libre partage ou contrôle de leurs données par les entreprises et particuliers ainsi que d’exercer leurs droits pour ces derniers.

SIS II (SYSTÈME D’INFORMATION SCHENGEN II)

Le système d’information Schengen (SIS II) est un traitement de donnés composé d’une base centrale située à Strasbourg et, dans chaque pays participant à l’espace Schengen, de bases nationales. Les informations concernent essentiellement des personnes :

  • Recherchées pour arrestation aux fins d’extradition ;
  • Etrangères, signalées aux fins de non-admission dans l’espace Schengen à la suite d’une décision administrative ou judiciaire ;
  • Signalées aux fins de surveillance discrète ou de contrôle spécifique.

SMART CITY

La ville intelligente est un nouveau concept de développement urbain. Il s’agit d’améliorer la qualité de vie des citadins en rendant la ville plus adaptative et efficace, à l’aide de nouvelles technologies qui s’appuient sur un écosystème d’objets et de services. Le périmètre couvrant ce nouveau mode de gestion des villes inclut notamment : infrastructures publiques (bâtiments, mobiliers urbains, domotique, etc.), réseaux (eau, électricité, gaz, télécoms) ; transports (transports publics, routes et voitures intelligentes, covoiturage, mobilités dites douces - à vélo, à pied, etc.) ; les e-services et e-administrations

SMART GRIDS

Le compteur communicant est une des composantes des réseaux de distribution d’énergie intelligents (également désignés sous les termes anglais de smart grids ). Ces réseaux utilisent des moyens informatiques évolués afin d’optimiser la production et l’acheminement de l’électricité, notamment grâce à la télétransmission d’informations relatives à la consommation des personnes. Cette télétransmission aura notamment pour conséquence de supprimer la relève physique des compteurs.

SOUS-TRAITANT

Le sous-traitant est la personne physique ou morale (entreprise ou organisme public) qui traite des données pour le compte d’un autre organisme (« le responsable de traitement »), dans le cadre d’un service ou d’une prestation.

Les sous-traitants ont des obligations concernant les données personnelles, qui doivent être présentes dans le contrat :

  • Une obligation de transparence et de traçabilité ;
  • La prise en compte des principes de protection des données dès la conception et par défaut ;
  • Une obligation de garantir la sécurité des données traitées ;
  • Une obligation d’assistance, d’alerte et de conseil (par exemple, une procédure de notification des violations de données personnelles doit être notifiée).

SUPPLY-SIDE PLATFORM (SSP) OU « PLATEFORME DE VENTE »

Les supply-side platforms sont les intermédiaires permettant aux éditeurs de contenus sur le web de commercialiser leurs inventaires publicitaires. Elles mettent ensuite ces inventaires en vente sur des plateformes d’échanges publicitaires, par exemple en enchères en temps réel.

SURAPPRENTISSAGE (OVERFITTING)

Dans le domaine de l’intelligence artificielle, le surapprentissage entraîne un modèle qui correspond trop précisément à une collection particulière de données utilisées pour l’entrainement. Cette analyse risque de ne pas correspondre à des données utilisées en phase de production et donc de ne pas permettre une utilisation fiable du système d’IA.

SYSTÈME D’EXPLOITATION (OU « OPERATING SYSTEM », OS)

Le système d’exploitation est la brique logicielle la plus proche du matériel informatique, allouant les ressources disponibles (ressources de calcul, mémoire, accès aux périphériques) aux différents éléments applicatifs qui en font la requête.

Dans le contexte des applications mobiles, l’OS est la brique logicielle qui définit et permet l’ensemble des interactions possibles entre l’utilisateur et le terminal, mais également entre les applications mobiles tierces (soit celles ajoutées a posteriori) et le terminal. Il met en œuvre notamment l’exécution en « bac à sable » (« sandboxing ») des applications, ainsi que le système de permission permettant l’accès aux fonctionnalités du terminal.

SYSTÈME D’IA À USAGE GÉNÉRAL

Un système d’IA à usage général peut être utilisé et adapté à un large éventail d'applications pour lesquelles il n'a pas été conçu intentionnellement et spécifiquement. Un tel système est destiné à exécuter des fonctions génériques telles que la reconnaissance d'images et de paroles, la génération d'images audio et vidéo, la détection de formes, la réponse à des questions, la traduction, etc.

T
TAUX D’APPRENTISSAGE (LEARNING RATE)

Dans le domaine de l’intelligence artificielle, le taux d’apprentissage est le facteur multiplicatif appliqué au gradient. À chaque itération, l'algorithme de descente de gradient multiplie le taux d'apprentissage par le gradient.

Le taux d'apprentissage est un hyperparamètre qui joue sur la rapidité de la descente de gradient : un nombre d’itérations plus ou moins important est nécessaire avant que l’algorithme ne converge, c’est-à-dire qu’un apprentissage optimal du réseau soit réalisé.

TEST (IA)

Dans le domaine de l’intelligence artificielle, le test est un processus consistant à évaluer les performances d’un système et à rechercher des erreurs liées à l’exécution d’un algorithme ou d’un programme en s’appuyant sur des jeux de données d’entrée n’ayant pas été utilisés lors de la phase d’entraînement.

TIERS AUTORISÉ

Autorité publique ou administration autorisée par un texte à recevoir des informations personnelles. Voir le guide « tiers autorisés » de la CNIL

TRACKING PIXEL/WEB BEACON OU « PIXEL ESPION »

Le tracking pixel est une méthode de traçage alternative aux cookies, traditionnellement mise en œuvre sous la forme d’une image de 1 pixel par 1 pixel, intégrée dans le site mais invisible pour l’utilisateur.

Le chargement de cette image, dont le nom contient un identifiant de l’utilisateur, informe le serveur sur lequel elle est hébergée que l’utilisateur tracé a visité une page ou lu un courriel.

TRAITEMENT AUTOMATIQUE DE LA PAROLE

Ensemble de disciplines dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Ces disciplines rassemblent notamment la reconnaissance de la parole, la synthèse de la parole, l'identification du locuteur ou encore la vérification du locuteur.

TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL (NATURAL LANGUAGE PROCESSING OU NLP)

Le traitement automatique du langage naturel est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle. Il vise à créer des outils de capable d’interpréter et de synthétiser du texte pour diverses applications.

TRAITEMENT DE DONNÉES PERSONNELLES

Un traitement de données personnelles est une opération, ou ensemble d’opérations, portant sur des données personnelles, quel que soit le procédé utilisé (collecte, enregistrement organisation, conservation, adaptation, modification, extraction consultation, utilisation, communication par transmission ou diffusion ou toute autre forme de mise à disposition, rapprochement).

Un traitement de données personnelles n’est pas nécessairement informatisé : les fichiers papier sont également concernés et doivent être protégés dans les mêmes conditions.

Un traitement de données doit avoir un objectif, une finalité déterminée préalablement au recueil des données et à leur exploitation.

Exemples de traitements : tenue du registre des sous-traitants, gestion des paies, gestion des ressources humaines, etc.

Termes simplifiés à privilégier : utilisation de données, système informatique, système d'information (selon le cas).

TRANSFERT DE DONNÉES

Toute communication, copie ou déplacement de données personnelles ayant vocation à être traitées dans un pays tiers à l’Union européenne.

TRANSPARENCY AND CONSENT FRAMEWORK (TCF)

Le transparency and consent framework est un standard de recueil du consentement proposé par l’IAB (Internet Advertising Bureau). En plus de définir la manière dont le consentement doit être recueilli, ce standard propose des solutions pour transmettre l’information sur le statut du consentement aux différents acteurs de la chaîne publicitaire.

V
VALIDATION (IA)

Dans le domaine de l’intelligence artificielle, la validation est un processus consistant à expérimenter, observer et optimiser (en modifiant les hyperparamètres notamment) le comportement du système lors de son exécution. Elle permet de s'assurer, dans le domaine d’emploi, de l'adéquation des données de sortie avec les résultats attendus.

VIDÉOPROTECTION

Les dispositifs dits de "vidéoprotection" filment la voie publique et les lieux ouverts au public et sont soumis aux dispositions du code de la sécurité intérieure.

VIDÉOSURVEILLANCE

Les dispositifs dits de « vidéosurveillance » concernent des lieux non ouverts au public (locaux professionnels non ouverts au public comme les bureaux ou les réserves des magasins) et sont soumis aux dispositions de la loi « Informatique et Libertés ».

VIOLATION DE DONNÉES

Une violation de la sécurité se caractérise par la destruction, la perte, l'altération, la divulgation non autorisée de données à caractère personnel transmises, conservées ou traitées d'une autre manière, ou l'accès non autorisé à de telles données, de manière accidentelle ou illicite. Il s…

VISION PAR ORDINATEUR (COMPUTER VISION)

La vision par ordinateur est une branche de l'intelligence artificielle dont le principal but est de permettre à une machine d'analyser et traiter une ou plusieurs images ou vidéos prises par un système d'acquisition.