뷰페이지

더 강력해진 알파고…인간의 ‘직관’도 모방해 학습

더 강력해진 알파고…인간의 ‘직관’도 모방해 학습

입력 2016-03-08 15:33
업데이트 2016-03-08 15:33
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

5개월간 반복 훈련…판후이 대국 때와 달라

“작년 10월의 알파고와 지금의 알파고는 다르다. 반복적인 자가학습으로 더욱 강력해졌다.”

데미스 허사비스 구글 딥마인드 최고경영자(CEO)는 8일 서울 포시즌스호텔에서 열린 대국 개회 기자간담회에서 이세돌 9단과 맞붙을 알파고를 이렇게 소개했다. 진짜 실력을 아직 다 공개하지 않았다는 의미다.

인간과 기계 간 ‘세기의 대결’로 불리는 대국이 하루 앞으로 다가오면서 알파고의 작동 원리와 실력에 대한 관심도 더욱 커지고 있다.

알파고는 몬테카를로 트리 탐색 알고리즘과 심층 신경망 기술을 결합해 활용하도록 설계됐다.

몬테카를로 트리 탐색은 361개 경우의 수를 나무 구조로 병렬 배치해 가장 유리한 선택을 하도록 돕는 알고리즘이며, 심층 신경망은 다음번 돌을 놓을 위치를 선택하는 ‘정책망’과 돌을 놓았을 때 승자를 예측하는 ‘가치망’으로 구성된다.

알파고는 먼저 사람 바둑기사들이 뒀던 바둑 경기를 바탕으로 바둑돌 3천만개의 움직임을 분석하도록 지도학습을 받았다.

이런 과정을 거쳐 기존의 기록(44%)을 훌쩍 뛰어넘는 57%의 확률로 사람의 움직임을 예측할 수 있게 됐다.

알파고는 이어 현재의 정책망과 무작위로 선택된 정책망 사이의 무수한 반복 대결을 통한 정책망 강화학습, 자체 대국을 벌여 바둑돌의 위치 평가를 바탕으로 결과 예측 능력을 키우는 가치망 강화학습을 했다.

그 결과 다른 바둑 프로그램들과의 대결에서 99.8%의 승률을 기록했고, 프로 바둑기사인 판후이 2단과의 경기에서도 5 대 0으로 이겼다.

알파고는 다른 바둑 프로그램과 대결 당시 두뇌역할을 하는 CPU(중앙처리장치)를 48개 사용하는 단일 시스템 버전이었다. 판후이와의 대국부터는 1천202개 CPU를 사용하는 분산 시스템 버전으로 더욱 강력해졌다.

판후이와의 대국 기록을 토대로 알파고의 실력을 판단했을 때에는 이세돌 9단의 승리를 예측하는 이들이 많았다.

알파고가 꺾은 판후이의 실력이 이세돌에 훨씬 못 미치고, 아직 세계 최정상급 바둑 고수의 변화무쌍한 대국 방식에는 충분히 적응하지 못한 것으로 보기 때문이다.

그러나 알파고가 판후이와의 대국을 통해 또 다른 의미 있는 학습 과정을 거쳤고 이후 5개월간 전문가와의 대국, 자체 프로그램 대국 등으로 훈련을 이어왔다는 점에서 실력이 늘었을 것이라는 추정이 가능하다.

누적 학습한 기보 3천만건, 한 달에 100만번의 대국 소화와 같은 기록은 인간으로서는 따라갈 수 없는 학습 속도와 분량이다.

특히 알파고가 사람 바둑기사만의 특기라고 할 수 있는 ‘직관’을 학습했다는 점은 강력한 무기일 수 있다.

이는 알파고가 기세와 세력, 두터움 같은 바둑 특유의 요소를 사람처럼 인지하지 못하더라도 워낙 학습량이 많아 이마저도 데이터로 형상화해 소화하는 능력을 어느 정도 갖췄다는 뜻이다.

허사비스는 이날 개회 기자간담회에서 “바둑에서는 직관이 중요하기 때문에 알파고로 하여금 인간 전문가의 경기 방식을 모방하게 했고, 모방을 넘어 인간보다 더 뛰어난 직관을 하도록 수십만건의 자가 경기 훈련을 했다”고 밝혔다.

이에 대해 이세돌 9단은 “알파고 알고리즘 설명을 듣고 나니 인간의 직관이나 감각을 완전히 따라오지는 못해도 어느 정도 모방이 가능해진 것 같아 조금 긴장을 해야 할 것 같다”고 말하기도 했다.

다만 알파고가 수많은 학습과 훈련을 했어도 정보의 질을 스스로 평가할 수 없다는 점은 한계로 꼽힌다. 스승에게 배우는 인간 바둑기사는 좋은 정보와 그렇지 않은 정보를 가려서 익힐 수 있지만 알파고는 그렇지 못하다는 것이다.

허사비스는 “알파고의 훈련 양이 많긴 하지만 스승의 지도나 지침이 따로 없어 정제된 지식을 받지 못하는 것이 사실”이라며 “이런 단점은 극복해야 할 것”이라고 말했다.

대국이 진행되는 동안에도 알파고는 계속 정보를 습득하겠지만 매일 새롭게 프로그래밍되지는 않는다. 수천개의 대국 데이터가 있어야 새로운 것을 학습할 수 있고 시간도 많이 걸리기 때문이다.

이밖에 알파고는 불계패를 인정하는 능력이 있는 것으로 알려졌다. 승패가 기울었을 때 판을 억지로 끌고 가지 않고 돌을 던질 수 있다는 것이다.

연합뉴스
많이 본 뉴스
‘민생회복지원금 25만원’ 당신의 생각은?
더불어민주당은 22대 국회에서 전 국민에게 1인당 25만원의 지역화폐를 지급해 내수 경기를 끌어올리는 ‘민생회복지원금법’을 발의하겠다고 밝혔습니다. 민주당은 빠른 경기 부양을 위해 특별법에 구체적 지원 방법을 담아 지원금을 즉각 집행하겠다는 입장입니다. 반면 국민의힘과 정부는 행정부의 예산편성권을 침해하는 ‘위헌’이라고 맞서는 상황입니다. 또 지원금이 물가 상승과 재정 적자를 심화시킬 수 있다고 우려합니다. 지원금 지급에 대한 당신의 생각은?
찬성
반대
모르겠다
광고삭제
위로