Actualités
Tech Spotlight : les enjeux juridiques du scraping
Guillaume Seligmann, associé en charge du département Technologie et son équipe vous présentent une analyse sur les enjeux juridiques du scraping.
ANALYSE :
L’entraînement des modèles d’IA repose le plus souvent sur l’exploitation massive de très grands ensembles de données. Aussi, la capacité d’accès à des ensembles de données de manière licite constitue un enjeu majeur pour le développement des systèmes d’IA.
Les données exploitées à des fins d’entraînement sont souvent issues de sites publics et collectées par « scraping », une technique de collecte automatisée de données sur internet au moyen de robots d’indexation (appelés « bots » ou « crawlers »).
Cependant, même si ces données sont publiées en ligne (et donc en principe librement accessibles), le recours à la pratique du scraping soulève des questions juridiques fondamentales, notamment lorsqu’elle concerne des informations publiées par des individus ou des entreprises qui souhaitent en conserver l’exclusivité d’exploitation.
En l’absence de cadre règlementaire propre à cette pratique, les juridictions européennes ont été progressivement conduites à définir les limites du scraping et à se prononcer sur les conditions dans lesquelles la protection des droits des producteurs de données et/ou des personnes concernées peut être conciliée avec la volonté de favoriser l’innovation et l’accès à l’information.
Plusieurs décisions récentes tracent ainsi les contours de l’articulation du scraping avec les droits de tiers, le droit d’auteur, la liberté d’exploitation, mais aussi le droit à la protection des données personnelles.
Ainsi, la mise en œuvre de travaux de recherches scientifiques permet l’exploitation de données appartenant à des auteurs tiers (Tribunal régional de Hambourg, 27 septembre 2024, n° 310 O 227/23, LAION c/ Robert Kneschke).
En revanche, l’exploitation de données à des fins commerciales réalisée au mépris des limites contractuelles (opt-out) définies par le producteur des données extraites est susceptible d’être qualifiée d’acte de concurrence déloyale (T.Com Paris, 30 septembre 2024, n°2022027735), et peut par ailleurs donner lieu à la mise en œuvre de la responsabilité contractuelle de son auteur (Tribunal Judiciaire de Paris, 21 février 2025, n° 21/09261).
En outre, le scraping ne saurait porter atteinte au droit des personnes à la protection de leurs données à caractère personnel (CNIL, délibération du 5 décembre 2024 n°SAN-2024-020 et Cour fédérale de justice allemande, 18 novembre 2024), leur réutilisation sans accord constituant un préjudice indemnisable.
Dans l’ensemble, la question de l’exploitation des données à des fins de recherche scientifique se rapproche en Europe de la conception du « fair use » (utilisation équitable) développée aux États-Unis : les juges américains ont récemment refusé de faire application du fair use pour justifier la collecte de données protégées par le droit d’auteur pour entrainer un outil d’IA exploité à des fins commerciales (Thomson Reuters Enterprise Centre GmbH et West Publishing Corp. v. Ross Intelligence Inc., No. 1:20-cv-613-SB).
En conclusion, si la technique du scraping peut être utilisée à des fins de recherche scientifique, voire tolérée pour l’entrainement d’outils d’IA, ce n’est que pour autant que les limites contractuelles (conditions générales du site) ou de concurrence déloyale soient respectées – et que cela ne constitue pas une atteinte aux droits des personnes concernées sur leurs données personnelles.
DECISIONS :
1 – Le scraping, une pratique susceptible d’être mise en œuvre sur le fondement de l’exception de fouille de textes et de données
Tribunal régional de Hambourg, 27 septembre 2024, n° 310 O 227/23, LAION c/ Robert Kneschke :
Un organisme à but non lucratif allemand, qui a pour activité la mise à disposition gratuite d’une banque de données d’entraînement, a publié un dataset (« LAION-5B ») destiné à entraîner certains systèmes d’IA génératives. Ce dataset comprenait un lien hypertexte conduisant vers une image du photographe Robert Kneschke mise en ligne et vendue sur le site internet Bigstockphoto.
Le tribunal considère que le scraping opéré par LAION, peut être considéré comme une opération de fouille de textes et de données au sens de la directive du 17 avril 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique (« DAMUN ») – et ce alors même que l’entraînement des systèmes d’IA n’était pas envisagé lors de l’élaboration de la directive.
Le tribunal conclut à l’absence de violation du droit d’auteur, en faisant droit à l’argumentation de LAOIN et en considérant que cette dernière pouvait se prévaloir de l’exception de fouille de textes et de données à des fins de recherche scientifique prévue par l’article 3 de la DANUM.
Il s’agit de la première décision impliquant la mise en œuvre des articles 3 et 4 de la DANUM pour apprécier la licéité d’actes de scraping. Bien que les juges n’aient pas eu à se prononcer sur la mise en œuvre de l’exception de fouille de textes et de données à des fins commerciales, les juges admettent que l’opt-out manifesté dans des conditions générales constitue un opt-out répondant aux conditions de la directive (i.e. « procédé lisible par machine ») et qu’il appartient aux fournisseurs de systèmes d’IA de mettre en place une stratégie pour identifier et respecter les réserves de droits revendiquées dans le cadre de la DANUM, compte tenu des développements techniques existants.
2 – Le scraping, une pratique susceptible de constituer un acte de concurrence déloyale
Tribunal de commerce de Paris, 30 septembre 2024, n°2022027735 :
Une société de recrutement effectuait de manière automatique des prélèvements d’informations sur des sites (tels que LinkedIn) pour constituer des profils de candidats et les proposer à ses clients.
Le tribunal rejette l’argumentaire de la requérante sur le défaut de base légale et la violation de l’obligation d’information issue du RGPD : il estime qu’en s’inscrivant sur LinkedIn, les utilisateurs s’exposent sciemment à ce que les informations qu’ils y disposent volontairement soient utilisées dans le cadre de la recherche de profils adaptés pour des employeurs éventuels.
En revanche, le tribunal de commerce estime que la violation des conditions générales d’utilisation de Linkedin, qui lui interdisaient de faire du web scrapping ou de copier des profils d’autres services, constitue un acte de concurrence déloyale.
Bien que le recueil du consentement des personnes concernées ne soit pas requis s’agissant de données volontairement divulguées par les personnes concernées, la pratique du scraping doit se faire dans le respect des droits des tiers.
3 – Le scraping, une pratique susceptible de constituer un manquement contractuel
Tribunal Judiciaire de Paris, 3e chambre 2e section, 21 février 2025, n° 21/09261 :
La société exploitant le site leboncoin.fr a assigné la société Directannonces pour violation de son droit sui generis de producteur de base de données, en lui reprochant d’avoir mis en place un système d’extraction et de réutilisation systématique de ses annonces immobilières sans autorisation.
En l’espèce, le tribunal déclare l’action en concurrence déloyale prescrite et refuse de constater l’existence d’une atteinte au droit sui generis du producteur de base de données, dès lors qu’il n’est pas démontré que les actes reprochés soient susceptibles d’affecter la capacité pour la demanderesse d’amortir l’investissement réalisé par l’exploitation normale de sa base de données.
Le tribunal relève par ailleurs que le producteur de bases de données peut par ailleurs interdire contractuellement l’exploitation de sa base par des tiers, comme l’a fait la requérante en l’espèce dans les conditions générales d’utilisation de son site. Néanmoins, dans la mesure où la base concernée est en libre-service et où son utilisation n’est pas soumise à inscription, à autorisation ou à acceptation de quelconques conditions contractuelles, le non-respect des conditions générales du site ne permet pas d’engager la responsabilité contractuelle de Directannonces.
Le scraping de bases de données en libre-service, sur un site dont l’utilisation ne requiert aucune inscription, ne permet pas d’engager la responsabilité contractuelle de son auteur, faute de lien contractuel entre les parties.
4 – Le scraping, une pratique à mettre en œuvre dans le respect des droits des personnes concernées
CNIL, délibération de la formation restreinte du 5 décembre 2024 (n°SAN-2024-020) :
KASPR commercialise une extension pour le navigateur Chrome qui permet à ses clients d’obtenir les coordonnées professionnelles de personnes dont ils visitent le profil sur le réseau social LinkedIn. A cette fin, KASPR constitue une base de coordonnées à partir de Linkedin, en y incluant les données de personnes qui ont paramétré la confidentialité de leurs données de manière à limiter l’accès à celles-ci à leurs seuls contacts au sein du réseau social professionnel.
La CNIL considère que KASPR n’avait pas d’intérêt légitime à traiter les données personnelles de ces contacts LinkedIn car les personnes concernées, ayant paramétré leur profil LinkedIn de manière à ce que leurs coordonnées ne soient pas visibles par tout le monde, ne pouvaient pas raisonnablement s’attendre à ce qu’une société y accède et les transmette à d’autres sociétés.
La CNIL considère également que KASPR a manqué à son obligation d’information aux personnes dont les données personnelles ont été collectées, alors qu’elle était en mesure de le faire dès le déploiement de l’extension KASPR par l’utilisateur, en le contactant par l’adresse e-mail collectée.
Les opérations de scraping doivent ainsi être mise en œuvre dans le respect des droits des personnes dont les données sont traitées.
5 – Le scraping, une pratique susceptible d’entraîner un préjudice de perte de contrôle des données
Cour fédérale de justice allemande (Bundesgerichtshof – BGH), 18 novembre 2024 :
La Cour reconnaît à un utilisateur de Facebook dont les données ont été collectées par un tiers au moyen d’une opération de scraping, un préjudice de « perte de contrôle » sur ses données (indépendamment de toute utilisation abusive ou conséquence négative) évalué à hauteur de 100€, sur le fondement de l’article 82 du RGPD. Elle renvoie à la cour d’appel le soin de se prononcer de nouveau sur cette base.
Cette décision, qui reconnaît l’existence d’un dommage immatériel du seul fait de la perte de contrôle (et de la crainte qui en résulte pour la personne concernée), s’inscrit dans la lignée des décisions rendues par la CJUE sur la prise en compte du dommage moral.