사람들은 AI 인프라를 떠올릴 때면 보통 LLM(대규모 언어 모델) 학습에 초점을 맞추고는 합니다. 하지만 학습은 서막에 불과합니다. Ciena의 프란시스코 산타나(Francisco Sant’Anna) 선임 고문은 AI 추론이 진화하고 LLM이 AI 팩토리에서 벗어나 수십억 명의 사람들이 사용하는 일상적인 제품으로 진화함에 따라, 진정한 시험대이자 네트워크에 가해지는 압박이 조용히 대규모로 형성되고 있다고 설명합니다.

전력 소모가 엄청난 데이터 센터의 막대한 GPU 클러스터가 페타비트급 규모로 연결되어 학습을 수행하는 모습은 AI가 네트워크에 미치는 영향을 실질적이고 극명하게 보여줍니다. 반면, 추론 작업의 부하는 작업 하나하나로 따지면 훨씬 가볍습니다. 그러나 그 증가세는 훨씬 가파르고 세계적이며, 파급력도 한층 광범위합니다. AI의 멀티모달화가 진행되고, 맥락을 더 정확히 인지하며, 디지털 플랫폼 전반에 깊숙이 자리 잡으면서 추론은 미래 네트워크 수요를 이끄는 주요 동력으로 부상하고 있습니다.

전례 없는 속도로 진행되는 AI 도입

전화기, 컴퓨터, 인터넷, 스마트폰 등 사회를 변혁한 기술이 수억 명의 사용자에게 도달하는 데는 수십 년이 걸렸습니다. 디지털 배포 시대에 접어들어서도 여전히 몇 년은 필요했죠. Netflix가 1억 명의 사용자를 확보하는 데는 10년이 걸렸고, Facebook의 경우 4년이 필요했습니다. Instagram은 그 수치까지 2년 조금 넘게 걸렸으며, TikTok은 9개월 만에 달성할 수 있었습니다. 그러나 AI의 도입 속도는 이보다 훨씬 더 빠릅니다.

ChatGPT는 단 두 달 만에 MAU(월간 사용자 수) 1억 명에 도달했습니다. Google의 Gemini 앱은 18개월도 채 되지 않아 MAU 4억 5천만 명을 돌파했죠. 그러나 새로운 AI 앱보다 더 중요한 것은 AI가 기존 디지털 플랫폼에 내장될 때 벌어지는 현상입니다. 검색, 이메일, 생산성 소프트웨어, 지도, 광고, 소셜 미디어는 이미 수십억 명의 사용자에게 도달했습니다. 여기에 AI를 접목하면 점진적으로 도입되는 것이 아니라 즉시 엄청난 규모로 확장하게 됩니다.

Google의 AI Overviews 출시가 그 대표적인 예시입니다. 검색에 Gemini 기반 기능을 도입한 지 1년 만에 매달 20억 명 이상의 사용자가 이 기능을 사용하게 되었습니다. 이제 AI 강화 기능은 Google, Microsoft, Meta를 비롯한 주요 디지털 플랫폼의 대다수 제품 포트폴리오 전반으로 퍼져 나가고 있습니다. 그 결과 추론량은 폭발적인 증가세를 보입니다. Google은 2025년 초, 매월 처리하는 AI 토큰(텍스트의 기본 단위)의 수가 전년 대비 50배로 증가했으며, 불과 두 달 만에 다시 두 배로 늘어났다고 보고했습니다.

하지만 AI 추론량이 곧바로 인프라 수요 증가로 이어지는 것은 아닙니다. AI 공급자들은 기존 자원으로 더 많은 작업을 처리하기 위해 추론 효율성을 개선하고 있습니다. 예를 들어, Microsoft는 전년 대비 GPU당 약 90% 더 많은 토큰을 전달한다고 보고했습니다. 그러나 알고리즘 및 아키텍처의 효율성만으로는 추론 부하 증가세의 일부만을 감당할 수 있을 뿐입니다. AI 사용이 소비자 및 기업용 애플리케이션 전반으로 확대되면서, 전  세계적으로 막대한 양의 GPU와 급속도로 팽창하는 추론 데이터 센터가 구축되고 있습니다. 추론 부하 자체가 어떻게 변화하고 있는지를 고려하기도 전에, 이러한 컴퓨팅 성장과 지리적 분산만으로도 사이트 간에 탄력적인 고용량 연결을 보장하는 것의 중요성은 더 커집니다.

텍스트 기반 AI의 영향력은 약하지만, 멀티모달 AI는 모든 것을 바꾼다

지금까지 AI가 전체 인터넷 트래픽에 미치는 영향은 상대적으로 미미했습니다. 텍스트 기반 상호 작용은 교환당 수 킬로바이트의 데이터에 불과한 아주 적은 양의 데이터만을 생성합니다. 아무리 대규모로 이루어지더라도, 동영상 스트리밍과 비교하면 무시할 수 있는 수준입니다. 그러나 멀티모달 AI의 등장은 이런 전제를 완전히 무너뜨립니다.

멀티모달 시스템은 텍스트, 이미지, 오디오, 동영상은 물론 3D 콘텐츠까지 처리하고 생성합니다. 사용자는 단순히 프롬프트를 입력하고 텍스트 답변을 받는 것을 넘어, 사진을 업로드하거나 동영상을 스트리밍하고 풍부한 시각적 결과물을 요청할 수 있습니다. 고화질 스마트폰 동영상 스트림(720p, 30fps) 하나만으로도 2~3Mb/s의 지속적인 상향 대역폭, 즉 분당 약 15~22MB의 데이터가 필요할 수 있습니다. 이를 수억 명에서 수십억 명의 사용자로 확대하면 추론 트래픽은 완전히 다른 양상을 보이기 시작합니다.

이러한 변화는 이미 시작되었습니다. Google, OpenAI, Anthropic, xAI, Alibaba 등이 이제 멀티모달 모델을 제공합니다. Google의 Google 렌즈로 검색 기능은 출시 단 몇 개월 만에 수십억 건의 쿼리 증가를 기록했습니다. Google의 Project AstraOpenAI의 GPT-4o와 같은 제품 시연을 보면 AI 어시스턴트가 실시간 동영상 피드를 처리하고 맥락에 맞게 응답하기도 합니다. 이러한 기능이 광범위하게 확장되기 시작하면 해저와 지상을 막론한 액세스, 메트로, 코어 네트워크 전반의 트래픽 증가에 대한 기존의 가설은 거센 도전에 직면하게 됩니다.

데이터 이동에 새로운 차원을 더하는 추론 모델과 심층 검색

추론 부하는 단순히 규모만 커지는 것이 아니라 더욱 스마트하고 복잡해지고 있습니다. 추론 모델은 복잡한 과제를 여러 내부 단계로 세분화하여 답변을 도출합니다. 이러한 보이지 않는 추론 과정은 기존의 “즉답형” 모델에 비해 쿼리당 3~10배 더 많은 연산량을 요구할 수 있습니다.

또한 이러한 모델은 심층 검색에 크게 의존합니다. 사용자 쿼리 하나가 수십 건의 백그라운드 검색으로 이어지면서, 다단계 추론 및 리서치 작업을 지원하기 위해 다양한 웹 페이지, PDF, 이미지 또는 비디오를 끌어올 수 있습니다. 사용자는 비록 짧은 답변만을 보더라도 네트워크 이면에서는 수 메가바이트의 데이터가 이동하고 있을 수 있습니다. 현재 플랫폼들은 이러한 고급 기능의 비용을 제한하기 위해 사용 한도를 두고 있지만, 수요는 빠르게 증가하는 추세입니다. 이렇게 규모가 커지면서 추론 관련 데이터 이동량도 크게 늘어날 것입니다.

컨텍스트 윈도우의 확장으로 추론 데이터 전송량 증가

조용하지만 강력한 또 다른 트렌드는 모델 컨텍스트 윈도우의 급격한 확장입니다. 컨텍스트 윈도우는 단일 추론 세션에서 모델이 처리할 수 있는 정보(대화 기록, 문서, 지침, 검색된 콘텐츠 등)의 양을 정의합니다. 지난 2년간 프론티어급 모델들은 연간 약 30배에 달하는 놀라운 속도로 컨텍스트 크기를 확장해 왔습니다.

Line chart The size of the context window of frontier LLMs has been growing at an impressive rate of 30x/year

프론티어급 LLM의 컨텍스트 윈도우 크기는 연간 30배라는 놀라운 속도로 성장 중

출처: Greg Burnham 및 Tom Adamczewski(2025), “LLMs now accept longer inputs, and the best models can use them more effectively”. epoch.ai 온라인 게재, 2026년 1월 5일 발췌.

더 커진 컨텍스트 윈도우는 RAG(검색 증강 생성)와 같은 기술의 효율성을 비약적으로 향상합니다. RAG는 특화된 모델을 학습시키는 대신, 애플리케이션이 방대한 외부 데이터를 범용 모델의 프롬프트에 직접 주입하여 추론 시점의 결과물과 의사 결정에 맥락을 부여하고 풍부해지도록 합니다.

이러한 유연성에는 대가가 따릅니다. 보조 데이터를 프롬프트에 첨부하면서 업스트림 트래픽이 증가하고, 프롬프트에 주입하기 전에 클라우드 기반 소스에서 RAG 콘텐츠를 가져와야 하므로 다운스트림 트래픽 또한 추가로 발생합니다.

이것이 AI 네트워크에 지니는 의미

추론의 규모가 확장되면서 AI 컴퓨팅도 점점 더 지리적으로 분산되고 있습니다. 모델은 지역 간에 동기화되어야 하며, 사용 데이터와 학습 신호 역시 공유되어야 합니다. 복잡한 추론 작업 흐름이 상호 보완적 기능을 지닌 여러 사이트를 넘나드는 경우도 많습니다. 이러한 모든 요소로 인해 DCI 대역폭이 큰 폭으로 늘어날 뿐만 아니라, 연결해야 할 AI 추론 데이터 센터의 수도 증가합니다.

오늘날 일반적인 추론 DCI(데이터 센터 상호 연결) 링크는 이미 경로별 초당 수 테라비트의 속도로 작동합니다. Ciena의 분석에 따른 보수적인 가정에 따르면, 향후 5년 이내에 이 요구 사항은 3~6배로 증가하여 경로별 용량이 초당 수십 테라비트, 심지어 수백 테라비트까지도 이를 것으로 보입니다.

Range of bandwidth requirement for AI inference data center interconnection from 2025 to 2030

AI 추론 데이터 센터 상호 연결에 필요한 대역폭 요건의 범위(Tb/s)

출처: Ciena 분석

AI 추론 데이터 흐름에 영향을 미치는 상호 의존적이고 가변적인 변수가 매우 많으므로, AI 추론이 네트워크에 미치는 영향을 정확하게 예측하기는 어렵습니다. 하지만 방향성은 명확합니다. 추론은 더 이상 네트워크 관점에서 가벼운 부하가 아니며, 네트워크 설계의 주요 동력이 되고 있습니다.

결론

AI 추론은 전 세계적으로 단순한 텍스트 쿼리를 넘어, 추론 중심의 풍부한 멀티모달 상호 작용으로 진화하고 있습니다. 이러한 변화는 단순히 더 높은 연산력을 요구하는 것에 그치지 않고 액세스, 메트로, 코어(해저 및 지상), 데이터 센터 네트워크를 아우르는 데이터 트래픽 패턴을 근본적으로 바꿀 것입니다.

네트워크 사업자에게 AI 추론 기반의 수요는 더 이상 부차적인 고려 사항이 아닙니다. 이는 AI 지원 네트워크의 설계 방식을 결정짓는 핵심 동력 중 하나가 되어, 데이터 센터 분산의 변화를 유도하고 도매 및 기업 부문 전반에 걸쳐 막대한 연결 기회를 창출하고 있습니다.

AI 추론이 트래픽 패턴을 재편함에 따라, 확장 가능하고 탄력적인 고용량 아키텍처에 주력하는 Ciena는 사업자가 AI 기반 네트워크 진화의 다음 단계로 나아가도록 지원할 준비가 되어 있습니다.