본문으로 바로가기

ChatGPT가 쏘아올린 큰 공. AI시대가 시작되면서 전 분야에 대해 큰 혁신이 불어올 것이라는 의견들이 많다. 하지만 찾아보면 ChatGPT같은 AI 기술은 2023년이 아니라 2021년에도 완성되어있음을 알 수 있다. 그렇다면 그 때는 왜 공개되지 않았을까? 수익성이 없기 때문.

● 돈이 항상 문제다

ChatGPT 3.5는 무료지만, GPT 4.0 더 높은 수준의 챗봇은 월 20달러다. 전 세계 많은 사람들이 이용하더라도 애초에 고성능을 요구하기 때문에 월 60달러를 받아도 손해라고 openAI는 밝혔다.

● 땅값, 건물값, 반도체값

왜? 계산, 데이터 처리, 데이터 저장은 조상님이 해주는 것이 아니라 값비싼 반도체가 해주는 것이기 때문에.

 

● 1세대 : 폰 노이만 구조의 탄생

과거 컴퓨터가 처음 탄생하며 등장한 폰 노이만 컴퓨팅 시스템. 모든 것이 개인 컴퓨터 내에서 이뤄졌기에 아주 효율적이었다. 컴퓨터에게 명령하면 컨베이어 벨트인 메모리 반도체 DRAM에 작업물(1+1=?)이 올라가고 CPU로 천천히 이동한다. CPU는 하나하나 들어온 작업물을 처리해서 결과물(1+1=2)을 하드 디스크(HDD, SDD)에 저장한다.

폰 노이만 방식 비유

● 2세대 : 스마트폰의 탄생

하지만 스티븐 잡스가 스마트폰을 세상에 공개하면서 이제는 데이터의 유동성이 높아졌다. 기존에는 개인 컴퓨터에만 저장했는데, 스마트폰 시대 돌입하면서 서로 사진과 영상, 데이터를 주고받기 시작했다. 이로 인해 사람들은 중앙화된 데이터 정류장, 중앙화된 데이터 주차장을 원하게 되었고 그렇게 등장한 것이 클라우드 시스템 혹은 데이터 센터다.

지난 번 카카오 데이터센터 화재나서 카카오 관련 시스템 모두가 먹통됐지? 모든 데이터 저장 및 처리가 한 건물에서 이뤄진다는 뜻이다.

 

막대한 양의 데이터를 처리하기 위한 데이터 센터는 무식하게 설계됨. 초대량의 메모리들을 구매해 위 사진처럼 건물 내에 꽂기 시작했고, 24시간 365일 전기가 끊이지 않도록 유지 보수했다.

 

건물 퀄리티도 보면 땅값 비싸겠고, 건설비 엄청 비싸겠지? 카카오만 데이터 센터 지은 것이 아니다. 아마존, 쿠팡, 구글 등등 그냥 컴퓨터 쓰는 대기업들은 다 데이터 센터 지음. 이렇게나 많은 메모리 반도체를 구하려면 정말 많은 물량을 요청해야겠지? 돈이 정말 많이 들어. 그렇기에 삼성전자, SK하이닉스와 같은 메모리 반도체 제조업체들이 돈을 많이 벌었다.

 

● 3세대 : AI의 탄생

여기까진 어떻게어떻게 폰 노이만 구조로 버텼지만, ChatGPT가 촉발한 AI 시대는 또 다르다. 폰 노이만 구조의 비효율이 여실히 드러남.

 

단순 데이터 저장 및 전송같은 상호작용 뿐만 아니라 데이터 센터 내에서 그간 학습한 내용을 기반으로 질문자의 의도까지 파악하는 CPU 역할까지 해야한다. 이게 전부 다 데이터 처리다.

그냥 내가 뭘 원하는지 모르니 다 갖다주는 기존 방식
  • 기존 : 워렌 버핏 투자법 검색 → 워렌 버핏 투자법 키워드가 들어있는 모든 내용을 전달
  • AI 방식 : 워렌 버핏의 투자법에 대해 정리해줘 → 데이터 센터 속 워렌 버핏 키워드 관련 책, 논문, 뉴스 등을 불러옴 → 해당 문장들을 나열한 뒤 투자법에 관한 내용만 추출 → 답변 작성 후 이용자에게 전달

● 메모리 병목 현상

컴퓨터 입장에서 미쳐버리겠는거야. 그냥 워렌 버핏 키워드 들어있는 지식만 갖다주면 됐는데, 이제는 계산까지 다 하라네?? CPU 한 명이서?? CPU 입장에서 사람 좀 더 고용해달라고 난리를 치겠지. 아무리 CPU가 분발해도 메모리가 일을 늦게 갖다주잖아? 일이 빠르게 진행 안 돼.

 

이 과정에서 병목현상이 발생한다. 폰노이만 구조의 문제가 메모리 엑세스 시간인데, 사람으로 치면 1분 만에 문제풀고 몇 개월동안 메모리 응답 기다리는 정도다.

 

컨베이어 벨트(DRAM)는 1개인데 CPU의 계산 속도는 엄청 빨라서 다음 작업물이 올 때까지 CPU는 놀고있는 셈이다.

● ChatGPT가 뚝뚝 끊기는 이유

메모리 병목현상 안 겪어본 사람 없음. 바로 ChatGPT에게 질문을 했을 때 답변이 뚜둑뚜둑 끊기는 현상. 이것이 메모리 병목 현상때문에 발생하는 것이다.

GPU 기업의 데이터센터 매출 비중이 25%에서 58%로 늘었음

● GPU의 재발견

그렇다고 AI 시대를 맞추기 위해 계산 역할인 CPU와 DRAM 사서 전부 배치한다? 너무 비싸서 비효율적이다. CPU는 일반적으로 적은 수의 코어를 가지고 있으므로 매우 작은 작업을 처리하는 데 매우 빠르다. 반면에 GPU는 대량의 코어를 가지고 있으므로 대규모 데이터 세트를 동시에 처리하는 데 매우 유용하다. 처음엔 그래픽 작업 처리하라고 만든 GPU인데 생각해보니 AI 딥러닝에 딱인거야...떡상 시작

복잡한 업무는 CPU가 1개씩, 간단한 업무는 GPU가 여러개씩 한다
GPU로 향하는 통로는 깨알같이 2줄이다(병렬 처리 방식을 의미함)

그렇기에 CPU만큼은 아니지만 충분히 계산 능력이 뛰어나고 동시에 여러가지 계산도 동시에 가능한 GPU의 수요가 급등했다. NVIDIA의 매출을 보면 data center 비중이 25%에서 56%로 증가했다. AMD도 마찬가지다.

본래 그래픽 처리를 위해 개발된 GPU지만 병렬 처리 방식의 능력이 AI 딥 러닝에 효과적이기 때문에 인공지능 분야에서 그 효율성을 인정받은 GPU다. 마치 CPU + DRAM이다. 잠깐만...그러면 DRAM에도 CPU처럼 데이터 처리 능력을 탑재하면 어떨까? GPU도 떡상 메모리도 떡상인 것.

* GPU 안에도 DRAM이 들어있다.

● PIM 반도체 설명

PIM 반도체는 컴퓨팅(계산)과 메모리(데이터 저장) 기능을 하나의 칩 안에 통합하여 데이터를 처리하고 전송하는 기술이다. 기존 폰 노이만 구조에서 CPU와 RAM 사이에 발생하는 병목현상을 해결하기 위한 기술이다.

● PIM 반도체 비유 그림

한 마디로 CPU에 데이터 전달되기 전, 미리 메모리 선에서 문제를 해결해버리는 것이다. 임원까지 갈 필요 없이 부장님 선에서 해결해버리는 것이야. 그러면 CPU(임원)는 할 일이 줄어들겠지? 병목 현상이 해결된다.

PIM 구조
삼성전자와 협력중인 AMD가 발표한 PIM 구조

● PIM 반도체 구조 그림

실제로 PIM 구조를 보면 데이터를 저장 및 전송하는 Memory Cell과 연산 처리를 하는 Logic Unit이 전부 DRAM 안에 들어있는 것을 알 수 있다. 그 비율은 기업 비밀일 듯. 이렇게 DRAM 안에서 간단한 연산은 끝내버리니 데이터 이동 횟수가 줄어들고, 메모리 병목 현상을 줄일 수 있음. 데이터 이동 횟수는 뭐다? 택배비다! 택배비가 줄어드는거야.

32bit = 32차선, 1024bit = 1024차선

● HBM 구조란?

PIM과 함께 언급되는 HBM 기술은 고대역폭 메모리 기술로 DRAM 구조를 수직으로 쌓아 데이터를 전송한다. 마치 위 오른쪽 영상처럼 한 층이 아니라 한 줄 한 줄 효율적으로 한 번에 데이터를 전송함. 이 또한 데이터 이동 횟수를 줄여준다. 택배비가 또 줄어드네?

● 고효율 메모리 반도체 탄생

  1. 적은 전력 소모(80% 이상 개선)
  2. 빨라진 데이터 처리 속도(약 16배 이상 개선)

HBM이 한 번에 데이터를 많이 옮기고, PIM이 데이터 이동 횟수를 줄여준다(둘이 같은 말이긴 함). 결국 그만큼 데이터 이동 횟수가 줄어들어 소모 전력(택배비)이 줄어든다. HBM-PIM 기술을 이용하면 기존 메모리 대비 정보처리전력을 85% 이상 절감 가능하다고 한다.

 

삼성전자와 SK 하이닉스가 현재 다른 기업들과 협업하며 주력으로 개발 중인 차세대 반도체 PIM에 대해 공부해봤다. 탄생 배경과 현재 문제점, 실제 구조까지 보고나니 이해에 도움이 되는 듯.

 

틀릴 수도 있으니 지적은 언제나 환영입니다!

 


-->