blog.pisik.club
article thumbnail
728x90

최근 AI 업계에서 DeepSeek(딥시크) 이라는 이름이 심상치 않게 들려오고 있습니다. OpenAI의 GPT-4, Anthropic의 Claude, Google의 Gemini 같은 모델들이 각축전을 벌이는 가운데, 중국발 AI 모델인 DeepSeek이 강력한 성능을 자랑하며 빠르게 성장하고 있습니다.

과연 DeepSeek이 무엇이고, 왜 주목받고 있는지, 그리고 어떤 기술적 특징을 갖고 있는지 알아보겠습니다.

 


DeepSeek이란?

DeepSeek은 중국의 AI 연구팀 DeepSeek AI에서 개발한 인공지능(AI) 모델입니다. 쉽게 말해, ChatGPT와 비슷한 역할을 하는 AI라고 생각하면 됩니다.
DeepSeek AI는 단순한 AI 챗봇을 만드는 것이 아니라, 사람처럼 텍스트를 이해하고 생성하는 AI 기술을 연구하고 있으며, 이를 기반으로 다양한 산업에서 활용할 수 있도록 하는 것이 목표입니다.
현재 DeepSeek AI는 DeepSeek-V2라는 최신 모델을 공개했으며, 추가적으로 DeepSeek-Coder(코딩 특화 모델), DeepSeek-Math(수학 문제 해결 모델) 등을 개발하여 더욱 다양한 기능을 제공하고 있습니다.

 

중국 딥시크의 모바일 화면

 


주목을 받는 이유

뛰어난 성능

DeepSeek은 사람과 자연스럽게 대화할 수 있을 정도로 높은 수준의 텍스트 이해 및 생성 능력을 가지고 있습니다. 기존의 유명한 AI 모델들(GPT-4, Claude, Gemini 등)과 비교해도 뒤처지지 않는다는 평가를 받고 있습니다. 

특히, 코딩(프로그래밍) 과 수학 문제 해결 같은 전문적인 영역에서도 강력한 성능을 보여주고 있습니다.\

 

 

딥시크와 타사LLM의 성능차이

 

학습비용이 기존 AI 모델의 1/10

 중국의 AI 기업 '딥시크'가 개발한 R1 모델의 학습 비용이 단 557만 달러, 우리 돈으로 약 80억 원에 불과하다는 것입니다. 이는 오픈 AI의 GPT-4 개발 비용의 18분의 1, 메타의 라마3 개발 비용의 10분의 1 수준으로, 기존의 LLM 훈련 비용과 비교하면 혁신적으로 낮은 금액입니다.
이러한 저비용 AI 개발 트렌드는 특히 중국 AI 기업들 사이에서 두드러지게 나타나고 있습니다. 미국 빅테크 기업들과 같이 최첨단 AI 반도체를 대량으로 확보하기 어려운 상황에서, 중국 기업들은 저사양 반도체로도 높은 성능을 내는 저비용 AI 연구에 집중하고 있습니다. 미국의 첨단 반도체 제재 역시 이러한 흐름을 가속화시키는 요인으로 작용하고 있습니다.

 

오픈소스

딥시크는 누구나 R1 모델을 활용할 수 있도록 R1을 오픈 소스로 공개했습니다. 오픈소스(Open Source)란 소프트웨어의 소스 코드가 공개되어 누구나 자유롭게 사용할 수 있고, 수정하거나 배포할 수 있는 소프트웨어를 의미합니다. 즉, 특별한 제약없이 누구나 딥시크를 무료로 사용할수 있는 것이죠. 특히 R1 모델을 증류한 소형 모델도 공개해 누구나 모델을 연구하고 수정할 수 있는데요. R1이 오픈 소스로 공개되며 사람들의 관심을 사고 있습니다.


기술적인 특징

강화학습을 극대화

최근 AI 업계에서 주목받는 딥시크의 R1 모델은 기존의 AI 학습 방식과는 차별화된 접근 방식을 선보였습니다. 일반적으로 AI 모델 학습에는 지도 학습이 주로 사용되지만, 딥시크는 V3 모델을 기반으로 R1 모델을 학습시키는 과정에서 강화 학습(RL, Reinforcement Learning)을 도입했습니다.

강화학습(GRPO, Group Relative Policy Optimization )이란 AI가 특정 행동을 수행했을 때, 그 결과에 따라 보상을 제공하여 더 나은 행동을 학습하도록 유도하는 방식입니다. 이는 마치 어린아이가 시행착오를 통해 학습하는 것과 유사하며, AI가 스스로 최적의 전략을 찾아낼 수 있도록 돕습니다.

 

딥시크는 강화 학습의 효율성을 높이기 위해 GRPO라는 독자적인 학습 방식을 추가했습니다.
GRPO는 AI 모델의 행동을 그룹으로 묶고, 그룹 내에서 상대적으로 우수한 행동을 선별하여 학습하는 방식입니다.
기존 강화 학습에서는 행동에 대한 절대적인 점수를 평가하는 모델이 필요했지만, GRPO는 상대적인 비교를 통해 학습하므로 더 적은 자원으로도 최적의 행동을 학습할 수 있습니다.
GRPO는 상대적인 행동 비교를 통해 학습하기 때문에 기존 강화 학습과 다르게 구체적인 점수를 도출하지 않아도 되기 때문에 더욱 적은 자원으로 학습이 가능하게 합니다.
이러한 혁신적인 학습 방식을 통해 딥시크는 R1 모델을 개발하면서 기존의 AI 모델 학습에 필요한 막대한 비용과 자원을 절감할 수 있었습니다.

 

멀티 토큰 시스템

기존의 일반적인 대규모 언어 모델(LLM)들은 인간의 언어를 단어 단위인 토큰으로 나누어 처리하는 방식을 사용했습니다. 이는 마치 문장을 단어별로 이해하는 것과 유사합니다. 하지만 딥시크는 이러한 방식에서 벗어나 여러 개의 토큰을 한 번에 처리하여 문장 전체의 의미를 파악하는 멀티 토큰 시스템을 도입했습니다. 덕분에 처리 속도가 두 배로 향상되었고, 답변의 정확도 또한 90%에 달하는 놀라운 결과를 얻을 수 있었습니다.


딥시크가 끼치는 영향

로컬 LLM의 대세화

현재까지 대부분의 서비스들은 LLM모델을 사용하기위해 각 회사에서 제공하는 API를 사용했습니다.

즉, 서버를 통해서 내 프롬프트의 응답을 받아오는 방식이죠. 대부분의 LLM모델은 고성능의 그래픽카드 요구하기때문에 이는 어쩔수 없는 선택이였습니다. 하지만 딥시크의 R1과 같이 저비용으로 운용 가능한 AI 모델이 등장하면서 상황이 달라지고 있습니다. 특히 딥시크는 R1 모델을 기반으로 더욱 작고 효율적인 모델들을 개발하여 공개했습니다. 이러한 소형 모델들은 일반 사용자들도 개인 컴퓨터나 서버에서 직접 구동할 수 있도록 설계되었습니다. 앞으로는 이러한 소형 모델들이 더욱 많이 개발되면서, API를 사용하는 대신 사용자가 직접 자신의 환경에서 AI 모델을 실행하는 방식이 보편화될 것으로 예상됩니다.

 

엔비디아 떡락?

떡락하는 주가..

 

딥시크 발표이후 엔비디아는 하루만에 800조가 빠지는 기염을 토하기도 했습니다. 이를 이해하려면 딥시크가 만들어진 배경이 필요합니다. 우선 딥시크는 엔비디아 H800 GPU를 활용해서 개발되었는데요. 엔비디아 H800 GPU를 활용한 점이 특히 중요한 이유를 이해하려면, 먼저 바이든 행정부의 대중 정책을 살펴볼 필요가 있습니다. 오픈AI가 챗GPT를 통해 생성형 AI 분야에서 선두에 섰을 당시, 바이든 행정부는 이러한 우위를 지속적으로 유지해야 한다고 판단했습니다. 이는 전기차를 비롯해 IT 산업 전반에서 중국의 성장 속도가 빠르게 증가하는 상황에서, 생성형 AI 부문에서도 중국이 빠르게 따라잡을 가능성이 크다는 우려 때문이었죠.

이러한 배경 속에서 바이든 행정부는 몇년간, 두 차례에 걸쳐 AI 모델 훈련에 사용될 수 있는 칩의 수출을 제한하는 조치를 발표했습니다. 중국에 수출되는 칩이 미국 내에서 판매되는 칩과 동일한 성능을 내지 못하도록 의도적으로 제한한 것이죠. 이에 대응해 엔비디아는 AI 특화 GPU인 H800을 발표했는데, 이는 자사의 플래그십 AI GPU인 H100을 기반으로 수출 제한 규정을 준수하기 위해 성능을 일부 낮춘 모델이었습니다. 엔비디아는 H800이 H100보다 정확히 얼마나 성능이 떨어지는지 명확히 밝히지 않았지만, 일부에서는 최대 50%까지 성능 저하가 발생할 수 있다는 분석을 내놓기도 했습니다.
 그런데 딥시크는 최악의 경우 H100의 절반 수준의 성능을 내는 H800을 사용하면서도, GPT-4 훈련에 소요된 H100 사용 시간의 단 16%만으로 V3 모델을 완성했습니다. 단순 계산으로 보면, 오픈AI가 보유했던 연산 능력의 최소 8%만으로 V3을 개발한 셈인거죠.
이러한 결과는 사람들이 AI 모델 훈련에서 반드시 엔비디아의 최신 GPU가 필요한지에 대한 의문을 가지게 되었고, 그 여파로 인해 엔비디아뿐만 아니라 H100을 대량 구매해 AI 모델을 개발하던 기업들의 주가에도 상당한 타격이 발생했습니다.


보안이슈

 딥시크가 오픈AI의 학습 데이터를 무단으로 활용했다는 의혹도 제기되고 있습니다. 오픈AI는 중국에 기반을 둔 여러 기관이 자사의 AI 도구에서 학습 데이터를 대량으로 유출하려는 시도를 했다고 밝히며, 지식재산권을 보호하기 위한 조치를 강화하겠다고 밝혔습니다.
보안 문제에 대한 논란도 계속되고 있습니다. 네이버 클라우드 AI 이노베이션센터장은 SNS를 통해 딥시크가 사용자의 장비 정보뿐만 아니라 쿠키 정보, 키보드 입력 패턴과 리듬까지 수집한다고 언급했습니다. 게다가 며칠 전에는 딥시크의 내부 데이터베이스가 유출되는 사고가 발생해 100만 건 이상의 민감한 정보가 외부로 노출되기도했습니다.

현재 대한민국에서 딥시크는 신규서비스가 중단된 상태입니다.

728x90
profile

blog.pisik.club

@pisik

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!