28 janvier 2019

Comment nous avons utilisé l'apprentissage automatique pour classer un million d'adresses Ethereum

Nous avons utilisé l'apprentissage automatique, et plus particulièrement l'apprentissage actif, pour identifier et étiqueter automatiquement les adresses Ethereum qui, avec une forte probabilité, appartiennent à des échanges.

Ces données alimentent la plateforme TRM, qui aide les émetteurs et les bourses d'actifs numériques à rester conformes et à se développer plus rapidement.

Cet effort s'appuie sur les travaux réalisés par Sid Shekhar, Matthias De Aliaga, Will Price et d'autres, en montrant comment l'apprentissage actif peut être utilisé pour regroupement et identifier les adresses Ethereum.

Peut-on utiliser l'apprentissage automatique pour identifier les adresses appartenant à un échange sur Ethereum ?

Nous avons tenté de répondre à cette question en utilisant à la fois l'apprentissage non supervisé et l'apprentissage supervisé. Nous avons commencé par l'apprentissage non supervisé pour voir quels modèles inattendus pourraient se trouver dans les données. Nous avons ensuite utilisé l'apprentissage supervisé pour obtenir des résultats plus définitifs.

Tout d'abord, nous avons collecté les données.

Nous avons utilisé l'ensemble de données Ethereum de Google BigQuery pour extraire les 1 000 000 premières adresses classées en fonction du volume d'ETH échangé.

Afin d'extraire des modèles des adresses (par exemple, quelles adresses appartiennent à un échange), nous avons d'abord défini les caractéristiques sur lesquelles nous allions établir des comparaisons.

Pour chaque adresse, nous avons calculé plus de 40 caractéristiques qui nous aident à catégoriser les adresses. Ces traits (ou caractéristiques, dans le langage de l'apprentissage automatique) comprennent des statistiques sur les actifs détenus par cette adresse, la fréquence des transactions et les personnes avec lesquelles elles ont été effectuées.

Maintenant que nous avons recueilli nos données, il est temps de faire des calculs.

Approche 1 : Apprentissage non supervisé

Avant de donner le coup d'envoi, nous avons nettoyé les données un peu plus en profondeur : réduction de la dimensionnalité et mise à l'échelle (analyse en composantes principales et T-SNE).

Visualisation des adresses sur les deux premières composantes principales

Nous avons entraîné un algorithme K-means pour voir s'il existe des "clusters" naturels dans les adresses Ethereum. Nous espérions voir plusieurs groupes bien différenciés.

Nous avons utilisé un petit ensemble d'adresses étiquetées provenant de la plateforme TRM pour tester la précision du modèle.

Elle a également constaté que les adresses étaient bien différenciées.

Ce tableau montre la corrélation entre les différentes caractéristiques et est utilisé pour sélectionner les caractéristiques.

L'une des mises en garde que nous avons constatées dans le regroupement est que deux adresses appartenant à une bourse peuvent être très différentes. Par exemple, cette adresse appartenant à Binance a un solde d'ETH très important (1M+) et peu de transactions (~100), alors que cette adresse appartenant à Bibox a un petit solde d'ETH (3K) et beaucoup de transactions (450K+).

L'apprentissage non supervisé nous a permis de constater qu'il pouvait y avoir des différences évidentes entre les adresses appartenant à une bourse et d'autres types d'adresses (par exemple, les teneurs de marché, les bureaux de gré à gré, les investisseurs particuliers).

Il était maintenant temps d'utiliser l'apprentissage supervisé pour prédire si une nouvelle adresse spécifique est une adresse appartenant à la bourse ou non.

Approche 2 : Apprentissage supervisé

Notre objectif : construire un système capable de détecter et d'étiqueter automatiquement les adresses Ethereum détenues par les bourses.

Nous avons décidé d'utiliser l'apprentissage actif parce que le nombre d'adresses non étiquetées est élevé et que l'étiquetage manuel est long et coûteux.

Nous avons commencé par générer plus de 40 caractéristiques pour chaque adresse. Dans le cadre du prétraitement, nous avons éliminé certaines des caractéristiques qui présentaient des corrélations élevées avec d'autres caractéristiques.

Nous avons formé un modèle de classification sur notre ensemble initial d'adresses d'échange étiquetées.

Cet arbre de décision est utilisé pour visualiser les caractéristiques les plus déterminantes de notre modèle.

Nous avons ensuite utilisé ce modèle pour prédire la probabilité qu'une adresse non étiquetée soit une adresse d'échange.

Sur les 100 adresses que notre modèle prédisait comme étant un échange avec une "forte probabilité", 95 ont été confirmées comme étant effectivement des adresses appartenant à un échange.

Après avoir validé l'exactitude de notre modèle, nous l'avons exécuté sur l'ensemble de la blockchain Ethereum afin d'étiqueter un plus grand nombre d'adresses appartenant à la bourse.

Conclusion

Grâce à ce projet, nous avons pu étiqueter plus de 600 000 nouvelles adresses Ethereum. Ensuite, nous mettrons à profit les enseignements que nous avons tirés pour étendre les adresses étiquetées à toutes les catégories : des teneurs de marché aux marchés du dark net.

Ces adresses Ethereum nouvellement étiquetées nous aident à faire avancer notre mission de rendre les blockchains plus fiables et plus sûres. En désanonymisant les données de la blockchain, nous permettons aux institutions financières de se conformer plus facilement à des réglementations telles que KYC/AML.

À propos de TRM : La plateforme TRM est la première plateforme conçue spécifiquement pour rationaliser la conformité AML sur la chaîne pour les émetteurs d'actifs numériques, les protocoles et les échanges, leur permettant de gagner du temps et de réduire les risques. La plateforme TRM comprend des solutions pour le contrôle préalable des clients sur la chaîne, le suivi des transactions et la gestion des relations.

‍

Abonnez-vous et restez au courant de nos idées