머신러닝을 사용하여 백만 개의 이더리움 주소를 분류한 방법

TRM 인사이트엔지니어링
머신러닝을 사용하여 백만 개의 이더리움 주소를 분류한 방법

저희는 머신러닝, 특히 액티브 러닝을 사용하여 높은 확률로 거래소에 속하는 이더리움 주소를 자동으로 식별하고 라벨을 붙였습니다.

이 데이터는 디지털 자산 발행사와 거래소가 규정을 준수하고 더 빠르게 성장할 수 있도록 지원하는 TRM 플랫폼의 기반이 됩니다.

이러한 노력은 능동적 학습을 사용해 이더리움 주소를 클러스터링하고 식별하는 방법을 보여줌으로써 시드 셰카르, 마티아스 드 알리아가, 윌 프라이스 등이 수행한 연구를 기반으로 합니다.

머신러닝을 사용해 이더리움에서 거래소 소유 주소를 식별할 수 있나요?

이 질문에 대한 답을 찾기 위해 비지도 학습과 지도 학습을 모두 시도했습니다. 먼저 비지도 학습을 통해 데이터에 어떤 예상치 못한 패턴이 있는지 확인했습니다. 그런 다음 보다 확실한 결과를 얻기 위해 지도 학습을 사용했습니다.

먼저 데이터를 수집했습니다.

Google BigQuery의 이더리움 데이터 세트를 사용하여 이더리움 거래량 기준으로 상위 1,000,000개의 주소를 추출했습니다.

주소에서 패턴(예: 어떤 주소가 거래소에 속해 있는지)을 추출하기 위해 먼저 비교 대상이 될 특성을 정의했습니다.

각 주소에 대해 주소를 분류하는 데 도움이 되는 40개 이상의 특성을 계산했습니다. 이러한 특성(또는 머신러닝 용어로 특징)에는 해당 주소가 어떤 자산을 보유하고 있는지, 얼마나 자주 거래했는지, 누구와 거래했는지에 대한 통계가 포함됩니다.

데이터를 수집했으니 이제 수치를 실행할 차례입니다.

접근 방식 1: 비지도 학습

시작하기 전에 데이터를 조금 더 정리했습니다. 차원 축소와 스케일링(주성분 분석 및 T-SNE)을 통해 데이터를 정리했습니다.


처음 두 가지 주요 구성 요소에 대한 주소 시각화

저희는 이더리움 주소 내에 자연스러운 '클러스터'가 있는지 확인하기 위해 K-평균 알고리즘을 훈련시켰습니다. 저희는 잘 구분된 여러 개의 클러스터를 확인하고자 했습니다.

모델의 정확도를 테스트하기 위해 TRM 플랫폼에서 라벨이 지정된 작은 주소 세트를 사용했습니다.

그리고 주소가 잘 구분되어 있는 것을 발견했습니다.

이 차트는 서로 다른 기능 간의 상관관계를 보여주며 기능을 선택하는 데 사용됩니다.

클러스터링에서 발견한 주의 사항 중 하나는 두 거래소 소유의 주소가 매우 다르게 보일 수 있다는 것입니다. 인스턴스 경우 바이낸스(Binance)) 소유 주소는 이더리움 잔고가 매우 크고(100만 개 이상) 거래가 적은 반면(~100건), 비박스 소유 주소는 이더리움 잔고가 적고(3천 개) 거래가 많은(45만 개 이상) 주소입니다.

비지도 학습을 통해 거래소 소유 주소와 다른 유형의 주소(예: 마켓 메이커, 장외거래 데스크, 개인 투자자)간에 분명한 차이가 있을 수 있다는 것을 알게 되었습니다.

이제 새로운 특정 주소가 거래소 소유의 주소인지 아닌지를 예측하기 위해 지도 학습을 사용해야 할 때였습니다.

접근 방식 2: 지도 학습

저희의 목표는 거래소 소유의 이더리움 주소를 자동으로 감지하고 라벨을 붙일 수 있는 시스템을 구축하는 것입니다.

라벨링되지 않은 주소의 수가 많고 수동 라벨링은 시간과 비용이 많이 들기 때문에 능동적 학습을 사용하기로 결정했습니다.

먼저 각 주소에 대해 40개 이상의 피처를 생성했습니다. 사전 처리의 일환으로 다른 피처와 상관관계가 높은 일부 피처를 삭제했습니다.

피어슨 상관관계 포스트

라벨이 붙은 초기 거래소 주소 집합을 기반으로 분류 모델을 학습시켰습니다.

이 의사 결정 트리 분류기는 모델에서 가장 결정적인 특징을 시각화하는 데 사용됩니다.

그런 다음 이 모델을 사용하여 레이블이 없는 주소가 거래소 주소일 확률을 예측했습니다.

저희 모델이 '높은 확률'로 거래소로 예측한 100개의 주소 중 95개가 실제로 거래소 소유의 주소로 확인되었습니다.

모델의 정확성을 검증한 후, 더 많은 거래소 소유 주소에 라벨을 붙이기 위해 전체 이더리움 블록체인에서 모델을 실행했습니다.

결론

이 프로젝트를 통해 저희는 60만 개 이상의 새로운 이더리움 주소에 라벨을 붙일 수 있었습니다. 앞으로 저희는 이 프로젝트에서 얻은 교훈을 적용해 마켓 메이커부터 다크넷 시장까지 모든 카테고리에 걸쳐 라벨링된 주소를 확장할 예정입니다.

새롭게 라벨링된 이더리움 주소는 블록체인의 신뢰성과 보안을 강화하기 위한 저희의 사명을 더욱 발전시키는 데 도움이 될 것입니다. 블록체인 데이터를 익명화함으로써 금융 기관이 고객알기제도(KYC)/자금세탁방지자금세탁방지(AML)) 등의 규정을 더 쉽게 준수할 수 있도록 지원합니다.

TRM 소개: TRM 플랫폼은 디지털 자산 발행자, 프로토콜, 거래소의 온체인 자금세탁방지(AML) ) 규정 준수를 간소화하여 시간을 절약하고 위험을 줄이기 위해 특별히 설계된 최초의 플랫폼입니다. TRM 플랫폼에는 온체인 고객 실사, 거래 모니터링, 관계 관리를 위한 솔루션이 포함되어 있습니다.

DIV 블록 안에 있는 텍스트입니다.
구독하고 최신 인사이트를 받아보세요.

트론, 솔라나 및 기타 23개 블록체인에 대한 보도 내용을 확인하세요.

양식을 작성하여 조사 전문 서비스에 대해 저희 팀과 상담하세요.

관심 서비스
아래 버튼을 클릭하면 TRM Labs 개인정보 취급방침에 동의하는 것으로 간주됩니다.
감사합니다! 제출이 접수되었습니다!
죄송합니다! 양식을 제출하는 동안 문제가 발생했습니다.
항목을 찾을 수 없습니다.