Les avancées révolutionnaires des algorithmes d’apprentissage automatique (ML) ont alimenté de nombreuses applications alimentées par l’IA dans divers secteurs, notamment le commerce électronique, la finance, la fabrication et la médecine. Cependant, le développement de systèmes ML réels dans des environnements de données complexes peut être difficile, comme en témoignent de nombreux échecs très médiatisés dus à des biais de données ou d’algorithmes.
Pour résoudre ce problème, une équipe de chercheurs de l’Université de Cambridge et de l’UCLA a introduit un nouveau cadre d’IA centré sur les données appelé DC-Check ; qui vise à souligner l’importance des données utilisées pour former des algorithmes d’apprentissage automatique. DC-Check est un cadre de type liste de contrôle exploitable qui fournit un ensemble de questions et d’outils pratiques pour guider les praticiens et les chercheurs dans leur réflexion critique sur l’impact des données à chaque étape du pipeline ML : données, formation, tests et déploiement.
Selon les chercheurs, l’approche actuelle de l’apprentissage automatique est centrée sur le modèle, où l’accent est mis sur l’itération et l’amélioration du modèle pour obtenir de meilleures performances prédictives. Cependant, cette approche sous-estime souvent l’importance des données tout au long du cycle de vie du ML. En revanche, l’IA centrée sur les données considère les données comme la clé pour créer des systèmes de ML fiables et cherche à améliorer systématiquement les données utilisées par ces systèmes. Ils définissent l’IA centrée sur les données comme suit : “L’IA centrée sur les données englobe des méthodes et des outils permettant de caractériser, d’évaluer et de surveiller systématiquement les données sous-jacentes utilisées pour former et évaluer des modèles.” En nous concentrant sur les données, nous visons à créer des systèmes d’IA non seulement hautement prédictifs, mais également fiables et dignes de confiance », ont écrit les chercheurs dans leur article.
🚀 Créez des ensembles de données de formation de haute qualité alimentés par Kili et résolvez les défis d’apprentissage automatique NLP pour développer de puissantes applications d’apprentissage automatique
Les chercheurs notent que bien qu’il y ait un grand intérêt pour l’IA centrée sur les données, il n’existe actuellement aucun processus standardisé lorsqu’il s’agit de concevoir des systèmes d’IA centrés sur les données, ce qui rend difficile pour les professionnels de l’appliquer à leur travail.
DC-Check résout ce défi en tant que premier cadre standardisé d’interfaçage avec l’IA centrée sur les données. La liste de contrôle DC-Check fournit un ensemble de questions pour aider les utilisateurs à réfléchir de manière critique à l’impact des données à chaque étape du pipeline, ainsi que des outils et des techniques pratiques. Il met également en évidence les défis ouverts à relever par la communauté de la recherche.
DC-Check couvre les quatre étapes clés du pipeline de machine learning : données, formation, test et déploiement. Au stade des données, DC-Check encourage les praticiens à envisager une sélection proactive des données, une conservation des données, une évaluation de la qualité des données et des données synthétiques pour améliorer la qualité des données utilisées pour la formation des modèles. Dans la formation, DC-Check promeut la modélisation basée sur les données, la personnalisation du domaine et une formation de groupe robuste. Les considérations de test incluent les fractionnements de données signalés, des mesures spécifiques et des tests de résistance, ainsi que des tests en sous-groupes. Enfin, les considérations de mise en œuvre englobent la surveillance des données, les boucles de rétroaction et les méthodes de fiabilité telles que l’estimation de l’incertitude.
Bien que la liste de contrôle s’adresse à un public cible de professionnels et de chercheurs, il est mentionné que DC-Check peut également être utilisé par les décideurs organisationnels, les régulateurs et les décideurs politiques pour prendre des décisions éclairées sur les systèmes d’IA.
L’équipe de recherche derrière DC-Check espère que la liste de contrôle favorisera l’adoption généralisée de l’IA centrée sur les données et conduira à des systèmes d’apprentissage automatique plus fiables et fiables. Avec Papier chèque DCont fourni un site Web complémentaire contenant la liste de contrôle et l’outil DC-Check, ainsi que ressources additionnelles.
🔥 Obtenez un avantage concurrentiel grâce aux données – informations de marché exploitables pour les marques mondiales, les détaillants, les analystes et les investisseurs. (Sponsorisé)