심층 강화학습 처리 AI 반도체 개발…"로봇 조종·드론·게임 등 활용 기대"

노현주 기자 / 기사승인 : 2021-07-16 15:24:00
  • -
  • +
  • 인쇄
- KAIST, AI가 시행착오로 얻어진 경험 통해 스스로 최적의 답안 도출

[일요주간 = 노현주 기자] 한국과학기술원(KAIST) 유회준 교수 연구팀이 구글 딥마인드에서 개발한 바둑 인공지능(AI) 프로그램인 ‘알파고’에서 활용된 심층 강화학습(DRL)을 높은 성능과 전력효율로 처리할 수 있는 첨단 AI 반도체 기술을 개발했다.

심층 강화학습은 인간이 미리 만든 데이터-정답 쌍을 활용해 AI을 학습시키는 ‘지도학습’과 달리 AI가 주어진 환경에서 시행착오로 얻어진 경험을 통해 스스로 최적의 답안을 도출하면 인간이 그 결과에 대한 피드백을 주는 방식을 말한다. 

 

▲ 인간형 로봇 적응 보행 시스템. (사진=과학기술정보통신부)

16일 과학기술정보통신부에 따르면 이번 연구는 지난 6월14~19일 열린 반도체 분야 최고 학회 중 하나인 ‘IEEE VLSI 기술과 회로에 대한 심포지엄’에서 200여 편의 발표 논문 중 우수 논문인 하이라이트 논문으로 선정돼 주목받았다.

심층 강화학습 알고리즘은 정답을 주지 않은 상황에서 최적의 답을 빠르게 찾기 위해 여러 개의 신경망을 동시에 사용하는 특징이 있다.

하지만 신경망이 복잡하게 얽혀있고 대규모 데이터를 처리해야 해서 기존에는 대용량 메모리를 가진 다수의 고성능 컴퓨터를 병렬 활용해야만 구현할 수 있었고, 연산 능력이 제한적이고 사용되는 메모리가 적은 노트북과 스마트폰 등에서는 구현이 불가능했다.

연구팀은 모바일 기기 등에서도 심층 강화학습이 가능하도록 기존보다 성능이 우수하고 특히, 전력효율이 2.4배 높은 AI 반도체 기술인 ‘OmniDRL’을 개발하였다.

구체적으로 ▲심층 신경망 데이터(가중치)에 대한 압축률 증가(연산에 불필요하거나 중복된 데이터 개수 감소) ▲데이터 압축 상태로 연산(기존 반도체는 압축 해제 필요) ▲연산(프로세서)·저장(메모리) 기능이 통합된 SRAM(Static RAM) 기반의 PIM(Processing-In-Memory) 반도체 기술을 사용했다.

또 기존 PIM 반도체는 정수 단위만 연산이 가능했으나 이번 연구를 통해 세계 최초로 소수점 기반 연산(추론·학습 모두 가능)이 가능한 기술을 개발했다.

연구팀은 OmniDRL을 심층 강화학습 알고리즘의 성능 비교 연구에 주로 활용되는 인간형 로봇 적응 보행 시스템에 적용한 결과, ‘OmniDRL’이 연결되지 않았을 때보다 7배 이상 빠른 속도로 적응 보행이 가능했다고 전했다.

유회준 교수는 “이번 연구는 한 개의 반도체에서 심층 신경망을 높은 압축을 유지한 상태로 추론과 학습을 가능하게 했다”며 “특히 불가능이라 여겨졌던 소수점 연산이 가능한 AI 반도체 기술을 개발했다는 점에서 의미가 크며 앞으로 지능형 로봇 조종, 자율주행 드론, 게임 등 다양한 분야에 응용이 가능할 것”이라고 기대했다.

한편, 과기정통부는 지난해 착수한 1조원 규모의 AI 반도체 연구개발(R&D)을 지속 지원하고, 내년부터 4000억원 규모의 PIM 반도체 기술 개발 사업을 본격적으로 추진할 계획이다.

 

 

[저작권자ⓒ 일요주간. 무단전재-재배포 금지]

오늘의 이슈