본문 바로가기 주요메뉴 바로가기

본문

광고

광고

기사본문

등록 : 2019.10.31 16:23 수정 : 2019.10.31 16:47

스타크래프트2 플레이 장면. 블리자드 제공

[구본권의사람과디지털]
인간플레이어 전략 모방한 뒤엔 ‘자체대결’ 통해 학습
1억2000만번 진행…“게임시간 191년” 인간은 경쟁불가
“불완전정보 기반으로 최고수준 도달” 범용 인공지능 기대

스타크래프트2 플레이 장면. 블리자드 제공

구글 딥마인드가 만든 인공지능 알파스타가 실시간 전략시뮬레이션게임 스타크래프트2에서도 최고수의 자리에 올랐다.

국제 학술지 <네이처>는 31일 딥마인드 연구진이 개발한 스타크래프트2용 인공지능 ‘알파스타(AlphaStar)’가 게임서버 배틀넷(Battle.net)에서 최고레벨인 ‘그랜드 마스터’(상위 0.2% 선수)에 올랐다는 연구논문을 실었다.

딥마인드는 2016년 1월 <네이처>에 바둑 인공지능 알파고 논문을 발표한 이후, 2017년 10월 <네이처>에 인간과의 대국을 거치지 않고 알파고끼리의 대국을 통해 바둑 실력을 업그레이한 알파고 제로를 공개했다. 딥마인드는 2018년 12월 멕시코 칸쿤 ‘단백질구조 예측 학술대회(CASP)’에서 3차원(3D) 단백질 아미노산 결합구조 예측 알고리즘인 ‘알파폴드(AlphaFold)’를 선보이며 대회에서 우승한 바 있다.

2019년 1월 딥마인드는 스타크래프트2 게임용 인공지능인 알파스타를 선보이며 프로게이머와의 대결에서 승리한 바 있다. 단, 이땐 중상위권 프로게이머로 평가받는 2명의 유럽 프로게이머(TLO, 마나)와 11번 대결에서 알파스타가 10번 이겼다. 프로게이머를 이겼지만, 완벽한 승리까지는 여정이 남아 있었다. 이번 <네이처> 논문에서 알파스타는 배틀넷에서 신분을 감춘 채 저그, 프로토스, 테란 세 종목으로 각각 30경기씩을 치렀고, 그 결과 유럽지역 상위 0.15%의 성적을 보였다고 공개했다.

단백질 3차원 구조에서 아미노산이 접히는 구조를 예측할 수 있으면, 생명의 신비에 대한 이해를 크게 확대할것으로 기대를 모으고 있는데 딥마인드의 인공지능 알파폴드는 이 분야에서 최고의 예측력에 도달했다. 딥마인드 제공.

인공지능에게 스타크래프트는 바둑보다 어려운 게임으로 여겨졌다. 바둑은 바둑판이라는 제한된 공간에서 매우 많은 경우의 수를 처리하는 게임이지만, 스타크래프트는 상대의 전략을 알지 못하고 필승 전략도 없으며 불완전한 정보를 기반으로 한 게임이라는 게 특징이다. 전체 판세를 볼 수 있는 바둑과 달리 스타크래프트에선 유닛의 시야 범위 안에서만 정보를 얻을 수 있다. 이를 근거로 장기 전략을 세우고 실시간으로 대규모 유닛을 제어하고 실행해야 한다.

# 알파제로, 뭐가 달라졌나?

올해 1월 알파스타가 등장해 프로게이머들을 꺾은 바 있지만, 이번 <네이처> 논문은 당시보다 높은 승률과 결과만이 아니라 알파스타가 어떤 과정을 거쳐 최고 수준의 게임능력에 도달하게 되었는지를 근거를 기반으로 설명한다는 점에서 의미가 있다. 올 1월 대결에서 알파스타는 훈련시간을 단축하기 위해 세 종족중 프로토스만 선택해 진행했고, 승률도 100%가 아니었다.

알파스타는 미시적 전략과 거시적 전략을 병행하며 게임실행력을 학습했다. 미시적 전략은 플레이어가 개별 유닛을 조작하는 방법을 의미하고, 거시적 전략은 플레이어가 자원을 어떻게 소비하고 군대를 훈련시키는가의 문제이다. 또한 알파스타는 인간의 게임 방법을 모방해 학습했고, 인간으로서는 동원할 수 없는 방법을 개발해 사용했다.

미시적 전략을 위해서 연구진은 알파스타는 스타크래프트2의 개발사인 블리자드가 인공지능 연구그룹에 공개한 기존 플레이어들의 게임 기록을 학습했다. 딥마인드의 수석 과학자 데이비드 실버는 이번주 언론인터뷰에서 “휴먼 데이터는 기본적으로 사람들이 사용하는 전략을 학습하도록 도와준다”며 “이를 통해 어떻게 지상 유닛과 공중 유닛을 사용하는 기본적 개념을 학습했고 이후 알파스타는 스스로를 상대로 게임을 시작해 다양한 전략을 구사하며 점점 자체 업그레이드되었다”고 말했다.

알파스타는 스스로를 상대로 1억2000만번 게임을 플레이했는데, 게임시간을 기준으로 환산하면 191년이 걸리는 기간이다. 알파스타는 인간의 게임 데이터를 통해서 학습했지만, 기본적 능력을 습득한 뒤에는 인간 기준 191년 걸리는 자체 대결을 통해 스스로를 업그레이드했다. 생물학적 시간을 사는 사람으로서는 습득이 불가능한 방법이다.

딥마인드는 불완전 정보를 기반으로 학습해서 최고 능력에 도달한 알파스타의 방법을 다른 분야로 확대할 경우, 범용 학습 인공지능으로서의 효용성이 크다고 보고 있다. 구본권 선임기자 starry9@hani.co.kr

광고

브랜드 링크

기획연재|구본권의 사람과 디지털

멀티미디어


광고



광고

광고

광고

광고

광고

광고

광고


한겨레 소개 및 약관