Des données biaisées dans le Big Data

Les personnes converties à l’utilisation du Big Data ont longtemps proclamé que « la vérité se trouve dans ces données ». Pourtant, un récent article publié par le Harvard Business Review souligne que les données ne sont pas aussi objectives que nous le pensons.

Les scientifiques de Xerox ont mené des études révélant que plus on va loin dans les données, plus on ne peut échapper aux biais liés aux comportements humains.
Ceci est un facteur important dans le traitement des données du Big Data, car cela signifie qu’il existe plusieurs informations biaisées lors de la collecte et de l’analyse des informations.

Par exemple, la science des données est utilisée pour aider les ressources humaines à embaucher des individus en utilisant les résumés de leur CV, afin de savoir quel candidat sera le plus compétent pour un poste proposé. Cela sonne comme une bonne idée, sauf si les données sont biaisées. En effet, l’entreprise pourrait embaucher plus d’hommes que de femmes. Dans ce cas, le problème serait automatiquement rentré dans un algorithme qui permettrait de ne plus refaire la même erreur.

Matthias Galle et Will Radford, des scientifiques du Centre européen de recherche de Xerox, explorent l’intersection entre les données du Big Data et les sciences sociales. Le but de cette recherche est d’enseigner aux ordinateurs comment le monde fonctionne – pour créer des algorithmes qui reconnaissent les comportements humains.

Ils font partie d’une équipe de scientifiques qui développent de nouvelles technologies capables de reconnaître et de traiter tous types de données – photos, vidéos, textes et numéros !
En fin de compte, les connaissances que nous allons gagner de ces données nous aideront à résoudre les problèmes de notre clientèle plus rapidement et efficacement.
Cela est important pour Xerox, qui se préoccupe particulièrement des besoins de ses clients – la société gère plus de 2,5 millions d’interactions avec ses clients tous les jours.

Des données biaisées dans les films ?

L’équipe a exploré cette idée de biais dans l’ensemble des données en observant le genre de questions posées dans l’industrie du divertissement. Ils ont extrait des données à partir du IMDb, une base de données de la télévision et du cinéma, contenant plus de 15 millions de données utilisées partout dans le monde.  Galle et Radford voulaient tester les forces et les limites de ces données, mais aussi comprendre comment l’homme et la femme se comportent à l’écran. Ils voulaient donc savoir si l’art représente nos attitudes dans la vie réelle, et y compris :

-Quels sont les téléspectateurs susceptibles d’en apprendre davantage sur les rôles de genre à l’écran?
-Voyons-nous des rôles différents au fil du temps et comment cela est relié au genre ?
– Comment les rôles entre les genres à l’écran se rapportent-ils au monde réel ?

Les données ont révélées que le rôle des genres à la télévision et au cinéma, ne reflètent pas la vraie vie. Les résultats ont été publiés dans un document « Roles for the boys? Mining cast lists for gender and role distributions over time ».

Obtenir une copie gratuite ici >>> http://www.xrce.xerox.com/Research-Development/Publications/2015-009

Posts associés

Recevoir les informations

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Pour en savoir plus sur notre politique en matière de protection des données, lisez notre Charte de confidentialité.