Informe 2025 sobre la criptodelincuencia: Vea las tendencias clave que dieron forma al mercado ilícito de criptomonedas durante el año pasado. Leer el informe

Cómo utilizamos el aprendizaje automático para clasificar un millón de direcciones de Ethereum

TRM InsightsIngeniería
Cómo utilizamos el aprendizaje automático para clasificar un millón de direcciones de Ethereum

Utilizamos el aprendizaje automático, concretamente el aprendizaje activo, para identificar y etiquetar automáticamente las direcciones de Ethereum que, con una alta probabilidad, pertenecen a intercambios.

Estos datos impulsan la plataforma TRM, que ayuda a los emisores e intercambios de activos digitales a cumplir la normativa y crecer con mayor rapidez.

Este esfuerzo se basa en el trabajo realizado por Sid Shekhar, Matthias De Aliaga, Will Price y otros, mostrando cómo se puede utilizar el aprendizaje activo para agrupar e identificar direcciones de Ethereum.

¿Podemos utilizar el aprendizaje automático para identificar las direcciones propiedad de los intercambios en Ethereum?

Intentamos responder a esta pregunta con aprendizaje supervisado y no supervisado. Empezamos con aprendizaje no supervisado para ver qué patrones inesperados podía haber en los datos. Luego utilizamos el aprendizaje supervisado para obtener resultados más definitivos.

En primer lugar, recopilamos los datos.

Hemos utilizado el conjunto de datos Ethereum de Google BigQuery para extraer las 1.000.000 direcciones mejor clasificadas por volumen de ETH negociado.

Para extraer patrones de las direcciones (por ejemplo, qué direcciones pertenecen a un intercambio), primero definimos los rasgos sobre los que estableceríamos comparaciones.

Para cada dirección, calculamos más de 40 rasgos que nos ayudan a clasificarlas. Estos rasgos (o características, en lenguaje de aprendizaje automático) incluían estadísticas sobre los activos que poseía la dirección, la frecuencia con la que realizaba transacciones y con quién las realizaba.

Una vez recopilados los datos, era hora de hacer números.

Enfoque 1: Aprendizaje no supervisado

Antes de empezar, limpiamos los datos un poco más: algo de reducción de dimensionalidad y escalado (Análisis de Componentes Principales y T-SNE).


Visualización de las direcciones en los dos primeros componentes principales

Hemos entrenado un algoritmo K-means para ver si existen "grupos" naturales dentro de las direcciones de Ethereum. Esperábamos ver varios grupos bien diferenciados.

Utilizamos un pequeño conjunto de direcciones etiquetadas de la plataforma TRM para probar la precisión del modelo.

Y, encontró que las direcciones estaban bien diferenciadas.

Este gráfico muestra la correlación entre distintas características y se utiliza para seleccionarlas.

Una de las advertencias que vimos en la agrupación es que dos direcciones propiedad de una bolsa pueden parecer muy diferentes. Por ejemplo, esta dirección propiedad de Binance tiene un saldo de ETH muy grande (1M+) y pocas transacciones (~100), mientras que esta dirección propiedad de Bibox tiene un saldo de ETH pequeño (3K) y muchas transacciones (450K+).

El aprendizaje no supervisado nos ayudó a ver que podía haber diferencias claras entre las direcciones propiedad de las bolsas y otros tipos de direcciones (por ejemplo, creadores de mercado, mesas OTC, inversores minoristas).

Ahora era el momento de utilizar el aprendizaje supervisado para predecir si una dirección nueva y específica es una dirección propiedad de la bolsa o no.

Enfoque 2: Aprendizaje supervisado

Nuestro objetivo: construir un sistema que pueda detectar y etiquetar automáticamente las direcciones Ethereum propiedad de los intercambios.

Decidimos utilizar el aprendizaje activo porque el número de direcciones sin etiquetar es elevado y el etiquetado manual lleva mucho tiempo y es caro.

Empezamos generando más de 40 características para cada dirección. Como parte del preprocesamiento, descartamos algunas de las características que tenían altas correlaciones con otras características.

Correlación de Pearson post

Entrenamos un modelo de clasificación en nuestro conjunto inicial de direcciones de intercambio etiquetadas.

Este clasificador de árbol de decisión se utiliza para visualizar las características más determinantes de nuestro modelo.

A continuación, utilizamos este modelo para predecir la probabilidad de que una dirección no etiquetada sea una dirección de intercambio.

De 100 direcciones que nuestro modelo predijo como de intercambio con una "alta probabilidad", se confirmó que 95 eran realmente de intercambio.

Tras validar la precisión de nuestro modelo, lo ejecutamos en toda la blockchain de Ethereum para etiquetar muchas más direcciones propiedad de intercambios.

Conclusión

Gracias a este proyecto, hemos podido etiquetar más de 600.000 nuevas direcciones de Ethereum. A continuación, aplicaremos lo aprendido para ampliar nuestras direcciones etiquetadas a todas las categorías: desde creadores de mercado hasta mercados de la red oscura.

Estas direcciones Ethereum recién etiquetadas nos ayudan a avanzar en nuestra misión de hacer que las cadenas de bloques sean más fiables y seguras. Al eliminar el anonimato de los datos de la cadena de bloques, facilitamos a las instituciones financieras el cumplimiento de normativas como KYC/AML.

Acerca de TRM: La plataforma TRM es la primera diseñada específicamente para agilizar el cumplimiento de la normativa ALD en la cadena para emisores, protocolos e intercambios de activos digitales, ahorrándoles tiempo y reduciendo el riesgo. La plataforma TRM incluye soluciones para la diligencia debida de los clientes en la cadena, la supervisión de las transacciones y la gestión de las relaciones.

Esto es un texto dentro de un bloque div.
Suscríbase y manténgase al día de nuestras novedades

Acceda a nuestra cobertura de TRON, Solana y otras 23 blockchains

Rellene el formulario para hablar con nuestro equipo sobre los servicios profesionales de investigación.

Servicios de interés
Seleccione
Transaction Monitoring/Wallet Screening
Servicios de formación
Servicios de formación
 
Al hacer clic en el botón siguiente, acepta la política de privacidad deTRM Labs .
Muchas gracias. Hemos recibido su envío.
¡Uy! Algo ha ido mal al enviar el formulario.
No se han encontrado artículos.