AI의 부상으로 네트워크 수요가 변화하고 있으며 DCI(데이터 센터 상호 연결) 용량이 AI 인프라 성장을 지원하는 데 매우 중요해지고 있습니다. Ciena의 Francisco Sant'Anna 선임 고문이 네트워크 사업자에게 이러한 변화가 어떻게 하이퍼스케일러와 AI 기업의 요구에 맞춘 혁신적인 고용량 연결 솔루션을 제공할 수 있는 흥미로운 기회를 열어주는지 설명합니다.
네트워킹 산업에게 지금은 흥미로운 시기입니다. AI 붐은 기술 시장을 근본적으로 변화시키는 변곡점이 되고 있습니다. 통신 산업의 경우 이를 인터넷과 스마트폰의 도입이 업계를 재정의한 것에 비유할 수 있습니다. AI로 예상되는 영향은 복잡하고 다면적이며 그중에서도 특히 주목할 만한 부분은 연결 수요의 변화입니다. 이 2부작 블로그 시리즈에서는 네트워크 수요를 크게 변화시키는 AI 추세와 동인 그리고 사업자가 이를 활용할 수 있는 방법을 살펴봅니다. 먼저 AI 투자가 DCI(데이터센터 상호 연결) 시장을 어떻게 변화시키고 있는지 살펴보겠습니다.
현재 AI가 네트워크에 미치는 영향에 대한 과열된 관심에도 불구하고, AI 기반 트래픽은 아직 초기 단계이며 데이터 센터 외부의 데이터 흐름을 크게 늘리지는 못하고 있습니다. 그러나 AI 인프라의 성장과 AI 모델 및 애플리케이션의 진화를 지속하기 위해서는 추가적인 연결 용량이 필수적입니다. 이러한 용량을 확보하는 것은 이미 진행 중인 투자의 필수적인 부분이며 AI 수요를 수익화하려는 네트워크 사업자에게 실질적인 기회를 제공합니다. 지금이 바로 AI 인프라 연결 분야에서 성공을 향해 나아가야 할 때입니다.
AI 컴퓨팅의 성장으로 200배로 증가할 것으로 예상되는 전력 요구량
“딥 러닝은 효과가 있었고 규모에 따라 예측 가능한 수준으로 성능이 향상되었으며 이를 위해 더 많은 자원을 투입했습니다.” OpenAI의 Sam Altman CEO의 말은 최근 몇 년 동안 AI 모델과 이를 지원하는 인프라의 인상적인 발전을 적절하게 요약하고 있습니다. 하이퍼스케일러와 AI 기업들은 AI 경쟁을 주도하기 위해 수십억 달러를 투자하고 있습니다. 이들은 더 강력한 LLM(대규모 언어 모델)을 제공하기 위해 대규모 AI 학습 시설을 구축하고 있습니다. 최첨단 LLM 학습을 위한 컴퓨팅 부하가 매년 4.7배로 증가하고 있습니다. 이러한 일관된 추세는 주요 AI 모델의 학습 컴퓨팅이 6년 동안 약 10,000배로 증가할 것임을 보여줍니다.
Epoch AI의 'Data on Notable AI Models’에서 설명한 주목할 만한 AI 모델들의 학습 컴퓨팅. 출처: https://epoch.ai/data/notable-ai-models [온라인 자료]. 2025년 4월 3일 접속함.
이러한 처리 용량의 증가는 하드웨어 성능 개선, 더 긴 학습 시간, 수만 개의 추가 GPU(그래픽 처리 장치)의 도입이 결합되어 가능해졌습니다. 업계에서 이러한 속도로 AI 컴퓨팅 성장을 유지하기 위한 과제에 대해 논의하는 상황에서 이러한 GPU 실행에 필요한 전력이 주요 제약 요인이라는 데 의견이 모아지고 있습니다. 자세한 분석 내용은 epoch.ai/blog/can-ai-scaling-continue-through-2030을 참고하십시오. AI 컴퓨팅의 성장으로 인해 6년 동안 전력 요구량이 200배로 증가할 것으로 예상됩니다.
이를 이해하기 쉽게 설명하면, 2024년 주요 LLM은 학습에 최대 30MW의 전력을 소비했으며, 이는 2030년까지 주목할 만한 모델 하나를 학습하는 데 최대 6GW에 달하는 전력이 필요할 수 있음을 시사합니다. 참고로 현재 세계 최대 발전소 중 이 출력을 초과하는 발전소는 약 24개에 불과하므로 이러한 전력 가용성을 단기간 내 데이터 센터 캠퍼스에서 확보하는 것은 현실적으로 어려울 것으로 보입니다. 이러한 대규모 컴퓨팅 부하에 전력을 공급하기 위한 실행 가능한 대안은 다양한 전원을 활용할 수 있도록 충분히 멀리 떨어진 여러 위치에 분산하는 것입니다. 이 접근법은 전력 병목 현상을 해소할 수 있지만 지리적으로 분산된 학습을 위한 기술과 인프라를 개발해야 하는 새로운 과제를 만듭니다.
새로운 알고리즘은 LLM 학습 과정을 분산하는 데 있어 다양한 접근법을 취할 수 있습니다. 일반적으로 여기에는 학습 데이터를 미니 배치(mini batch)로 나누고 각 데이터 센터에서 서로 다른 미니 배치를 사용하여 모델의 복제본을 학습하는 작업이 포함됩니다. 각 학습 단계는 미니 배치에 포함된 학습 데이터의 하위 집합을 실행하는 모델 매개 변수를 최적화하는 과정이며, 이 과정이 끝난 후 모델 복제본은 그 결과를 동기화해야 합니다. 그런 후 복제본은 서로 그라데이션을 교환하여 평균을 내어 다음 라운드를 하나의 업데이트된 공유 가중치 세트로 시작합니다.
각 교환 과정이 오래 걸릴수록 수만 개의 GPU가 다음 단계를 시작하기 위해 유휴 상태로 대기하게 됩니다. 전체 학습 프로세스가 백만 단계를 초과할 수 있기 때문에 모든 단계마다 가중치를 전송하는 데 1초씩만 걸려도 학습 과정이 10일 이상 지연될 수 있으며, 이는 수백만 달러에 이르는 컴퓨팅 자원의 낭비로 이어질 수 있습니다. 현재 모델 매개 변수 수에 대한 예상치를 고려할 때, 지리적으로 분산된 효과적인 학습 프로세스를 위해서는 초당 수 페타비트(Pb/s)의 대역폭이 필요할 것으로 예상됩니다. 따라서 대역폭이 높을수록 프로세스가 더 빠르고 효율적으로 처리됩니다.
아직 업계 대다수에게는 이러한 유형의 수요는 다소 미미한 수준이지만, 이제 단순한 추세를 넘어 현실이 되고 있습니다. 하이퍼스케일러는 이제 필요한 인프라를 적극적으로 계획, 조달 및 구축하는 데 있어 거침없는 속도를 보이고 있습니다. Google은 분산 학습 이니셔티브를 공개한 소수의 기업 중 하나로, Gemini Ultra가 여러 사이트에 걸쳐 학습되었다고 밝힌 바 있습니다. 하이퍼스케일러 네트워크 팀은 낮은 인지도에도 불구하고 연결성이 AI 성공의 걸림돌이 되지 않도록 하기 위해 최선을 다하고 있는 것으로 보입니다. 이들은 수백 개의 광 케이블 쌍을 병렬로 실행할 수 있는 새로운 아키텍처를 살펴보고 있으며 각 쌍을 최대한 활용하기 위해 최첨단 광 기술 혁신에 투자하고 있습니다.
네트워크 사업자의 대응
네트워크 사업자는 이러한 기회를 활용하기 위해 기술 및 비즈니스 모델 혁신을 모두 활용하고 있습니다. 역사적으로 하이퍼스케일러는 자체 DCI 네트워크를 구축하는 것을 선호해 왔습니다. 그러나 시장 출시 시간에 대한 압박, 비즈니스 우선 순위 및 규제 제약이 복합적으로 작용하면서 네트워크 구축에 대한 대안적 접근법을 받아들이는 추세입니다. 반면에 서비스 공급자는 관리형 서비스를 통해 하이퍼스케일러의 요구를 충족하고 기존 광 케이블 자산에서 더 많은 가치를 창출하고자 합니다. 즉, 하이퍼스케일러는 설계 요구 사항, 서비스 수준 그리고 네트워크 자산의 제어 및 관리에 매우 까다롭기 때문에 AI 인프라 구축을 지원하기 위한 네트워크 발전 방향에 상당한 영향력을 행사할 수 있습니다.
이로 인해 MOFN(Managed Optical Fiber Networks) 거래를 촉진하는 복합적인 요인이 동시에 발생하고 있습니다. MOFN은 맞춤형 DCI 솔루션을 위한 다양한 비즈니스 모델을 포함하며, 하이퍼스케일러가 정의한 세부 네트워크 설계를 서비스 공급자가 구현한 후 서비스 형태로 제공하는 방식입니다. Ciena는 신뢰 관계와 네트워크 기술 리더십을 활용하여 서비스 공급자와 하이퍼스케일러 간의 많은 거래를 지원해 왔습니다.
하이퍼스케일러와 서비스 공급자는 유연하고 맞춤형으로 구축된 MOFN 솔루션 외에도 모든 광 케이블 쌍을 최대한 활용하기 위해 광 기술 혁신에 의존하고 있습니다. 이들은 재구성 가능 회선 시스템을 채택하여 기존 C 대역 외에도 광 케이블의 L 대역 스펙트럼을 활용하고 있습니다. 또한 고급 소프트웨어 애플리케이션을 통해 훨씬 낮은 비트당 전력과 공간으로 파장당 최대 1.6Tb/s를 제공할 수 있는 최신 코히어런트 트랜스폰더를 구현하여 광 기술 자산 성능을 지속적으로 최적화하고 있습니다. 그뿐만 아니라 여러 개의 광 케이블을 병렬로 연결하여 DCI 아키텍처의 효율성을 극대화하는 다중 레일 솔루션도 연구하고 있습니다.
이러한 네트워킹 목표는 야심차게 보일 수 있지만, AI 인프라를 구현하는 데 드는 비용에 비하면 그 비용은 극히 일부에 불과하므로 이를 추구하는 것은 자연스러운 선택이 될 것입니다.
분산형 LLM 학습만이 AI DCI 기회를 창출하는 것은 아닙니다. 추론, 학습, 또는 이들의 조합에 관계없이 엄격한 데이터 주권 규정을 준수하면서 에너지 가용성을 따르기 때문에 AI 데이터 센터 구축은 지리적으로 더 분산될 것입니다. 이러한 중요 시설은 안정적이고 안전하게 연결되어야 하므로 고용량 DCI에 대한 수요가 더욱 증폭됩니다. 이러한 환경은 모든 AI 인프라 투자 대상 지역에서 광 케이블 기반 네트워크 사업자에게 간과할 수 없는 상당한 기회를 창출합니다.
이제 Ciena가 DCI 기회를 최대한 활용할 수 있도록 어떻게 지원할 수 있는지 토의해 보겠습니다.