Ciena는 증가하는 용량 수요를 충족할 수 있도록 설계된 광학 혁신 신기술의 개발을 주도하고 있습니다. 이번 대화에서는 Ciena의 Helen Xenos가 글로벌 R&D 선임 부사장 Dino DiPerna와 만나 차세대 연결성을 형성하는 제품, 기술, 구조적 변화를 주제로 이야기를 나눕니다.

이번 주에는 AI 기반 워크로드로 인해 용량 수요가 계속 급증하는 상황에서 광학 네트워킹의 미래를 재정의하도록 돕기 위해 Ciena가 개발 중인 몇 가지 혁신 기술을 미리 살펴봤습니다.

이러한 발표가 나오게 된 자세한 맥락과 여기서 말하는 네트워킹의 미래가 무엇을 의미하는지 알려드리기 위해 Ciena 글로벌 연구개발 부문 선임 부사장인 Dino DiPerna와 대담을 나누었습니다. 수년 동안 Dino와 긴밀히 협력하는 과정에서 그와 대화할 때마다 항상 새로운 것을 배울 수 있었습니다.

이번 논의에서는 AI가 네트워크 아키텍처를 어떻게 재구성하고 있으며 차세대 연결성을 지원하는 데 필요한 혁신은 무엇인지 살펴보겠습니다.

Helen Xenos: AI가 예상치 못한 속도로 네트워크 수요를 재편하고 있습니다. 지난 한 해 동안 어떤 근본적 변화가 있었기에 현재의 상황이 달라진 것일까요?

Dino DiPerna: 제가 느끼는 가장 큰 변화는 학습이 더 이상 단일 데이터 센터 시설로 국한되지 않는다는 점입니다.

머신 러닝 모델이 확장되고 더 많은 데이터를 처리하게 되면서 WAN 전반의 용량 수요는 이미 증가 추세에 있었습니다. 하지만 지난 12~18개월 사이에 크게 바뀐 것은 공간과 전력의 제약으로 인해 AI 학습 클러스터가 단일 시설을 넘어서 확장되었다는 것입니다.

이러한 상황에서 네트워크는 분산된 학습을 연결해 주는 중요한 패브릭으로 자리 잡았습니다. 이러한 변화만으로도 네트워크 용량 수요는 수십, 수백 배로 뛰어오릅니다.

클라우드 공급업체 고객이 컴퓨팅 투자를 온전히 수익화하려면 이러한 변화를 이해해야 하며 네트워크도 이에 따라 확장해야 합니다. 그렇지 않으면 네트워크는 AI 인프라의 가치를 제한하는 병목 지점이 될 것입니다. 지금의 수요 변화는 AI 네트워크 자체가 설계되는 방식도 변화시키고 있습니다.

AI 트래픽과 기존 클라우드 트래픽과의 차이점은 무엇이며, 어째서 그런 차이점 때문에 네트워크 아키텍처를 재고해야 하는 것일까요?

아키텍처 측면에서 우리가 마주한 가장 큰 변화 중 하나는 일명 스케일 어크로스입니다. 처음으로 조직들이 AI 백엔드 인프라를 위한 전용 네트워크를 구축하고 있습니다. 이러한 환경에서 분산된 AI 학습을 지원하려면 엄청난 용량이 필요합니다. 그 말은 네트워크가 기존의 클라우드 트래픽 패턴과는 상당히 다른 방식으로 설계되어야 한다는 뜻이죠.

우리는 하이퍼스케일러와 매우 긴밀하게 협력하여 그들에게 필요한 용량, 효율성, 신뢰성을 제공할 수 있도록 아키텍처를 최적화하고 있습니다.

동시에 배포 속도도 엄청납니다. AI 인프라는 연결성이 갖춰져야 가치를 발휘하는 관계로, 네트워크를 매우 빠른 속도로 구축해서 가동하고 있습니다. 이러한 상황으로 인해 제품 자체뿐만 아니라 자동 서비스 활성화 및 고급 네트워크 원격 측정부터 솔루션 검증 및 스테이징에 이르는 배포 프로세스 전반에서 혁신을 이뤄 고객이 출시 시간을 점점 단축하고 이러한 네트워크를 최대한 신속히 가동시킬 수 있도록 지원하고 있습니다.

AI 클러스터가 단일 데이터 센터를 넘어 확장됨에 따라 이러한 네트워크를 지원하는 물리적 전송 인프라도 진화해야 합니다.

바로 이 지점에서 하이퍼레일 포토닉스가 필요한 것입니다. 오늘날 이러한 혁신을 야기하게 된, 하이퍼스케일러와 네트워크 사업자가 직면한 과제는 무엇인가요?

이러한 스케일 어크로스 네트워크가 100~150km 범위 너머로 확장됨에 따라 광 회선 증폭 작업이 필수로 변했습니다.

문제는 그러한 네트워크를 지원하는 시설 즉, 기존의 회선 증폭기 시설은 공간과 전력 측면에서 실질적인 제약이 존재한다는 점입니다. 동시에 도매 공급업체와 하이퍼스케일러는 장거리에 걸쳐 수백 개의 광섬유 쌍으로 구성되는 링크를 구축하고 있습니다. 대부분의 경우 사업자는 시설 인프라에 이를 지원할 공간이나 전력이 부족하므로 광섬유의 극히 일부만 연결할 수 있습니다.

이 지점에서 밀도와 에너지 효율성의 중요성이 더욱 커집니다. 솔직히 EDFA 기술은 30년 이상 광 네트워크의 핵심 기술이기는 했으나 본질적으로 기술적 측면에서는 거의 변화가 없었습니다. AI 워크로드를 지원하기 위해 네트워크가 확장됨에 따라 이 부분에 상당한 혁신 기술이 필요합니다.

우리는 하이퍼레일을 통해 회선 증폭기 설계를 하드웨어 및 소프트웨어 측면에서 완전히 재구상하여 공간 및 전력 효율성을 대폭 향상했습니다. 예를 들어, RLS 하이퍼레일을 이용하면 랙당 밀도를 기존 접근 방식보다 최대 32배나 높일 수 있습니다.

이것은 시작에 불과합니다. AI 인프라가 지속적으로 확장됨에 따라 고객들이 향후 요구하게 될 규모와 효율성을 지원할 수 있도록 이 부분의 네트워크를 지속적으로 혁신해 나가야 합니다. 물론 AI 네트워크 확장은 포토닉 회선 인프라에 대한 것만이 아닙니다. 코히어런트 광학 측면에서도 지속적인 혁신이 필요합니다.

우리의 팀들은 코히어런트 광학 분야에서도 업계를 선도하며 계속 혁신해 나갈 것입니다. WaveLogic 6 Extreme을 출시한 지 18개월이 되었습니다. 이는 여전히 업계 유일의 코히어런트 1.6Tb/s 솔루션이며 현재 1.6Tb/s 코히어런트 플러그형 개발이 활발하게 진행되고 있습니다.

1600ZR/ZR+ 플러그형 개발 과정에서 주요 과제는 무엇인가요? 또한 2nm CMOS에 대한 투자가 전략적으로 올바른 움직임인 이유는 무엇인가요?

1.6T 코히어런트 플러그형의 가장 큰 과제는 플러그형 폼 팩터의 엄격한 전력 제한 내에서 매우 높은 보드율과 그와 연관된 아날로그 대역폭을 달성하는 것입니다.

이러한 점에서 최첨단 CMOS는 여전히 매우 중요합니다. 아시다시피 우리는 최첨단 반도체 노드에 지속적으로 투자해 왔는데, 이를 통해 고성능과 전력 효율성이 향상된 설계를 모두 달성할 수 있기 때문입니다. 우리는 7nm 코히어런트 DSP를 처음 개발하고 3nm DSP도 처음 개발했으며, 차세대 DSP 개발을 위해 최신 2nm CMOS 기술을 완전하게 활용할 것입니다.

2nm으로 전환하면 순수 아날로그 성능과 전력 효율성을 확보하면서 1600ZR/ZR+ 플러그형을 대규모로 설계 및 제공할 수 있습니다.

전체 스펙트럼 코히어런트 솔루션은 AI 인프라 확장을 어떻게 간소화하나요? 이러한 솔루션으로 어떤 과제를 해결할 수 있나요?

플러그형 광학 기술이 처음 등장했을 때의 목표는 비효율적인 백투백 회색 광학 장치를 제거하고 비용과 전력을 줄이는 것이었습니다. 하지만 실제로 운영할 땐 여전히 장시간에 걸쳐 개별 파장을 비추는 방식으로 네트워크를 확장했습니다.

이러한 모델은 AI 스케일 어크로스 아키텍처가 등장하면서 붕괴되기 시작합니다. 사업자는 처음부터 전체 광섬유나 여러 광섬유를 연결하는 경우가 많습니다. 그렇게 많은 용량이 바로 필요한 상황에서 한 번에 하나씩 파장을 켜는 방식은 비효율적이며 불필요한 비용을 초래하고 운영을 더욱 복잡하게 만듭니다.

전체 스펙트럼 트랜스폰더는 다른 접근 방식을 취합니다. 용량을 한 번에 하나씩 파장 단위로 배포하기보다 단일 시스템에서 하나의 광섬유 쌍으로 전체 스펙트럼을 연결할 수 있습니다. 이렇게 하면 설치가 간편해지고 하드웨어 오버헤드가 줄어들며 대용량을 빠르고 효율적으로 배포할 수 있습니다.

AI 인프라를 지원하기 위해 네트워크가 확장됨에 따라 이런 종류의 효율성이 점점 더 중요해지고 있습니다.

앞으로 CPO(Co-Packaged Optics) 또는 NPO(Near-Packaged Optics)는 AI 네트워킹에서 어떤 전략적 역할을 맡게 되나요? 또한 Ciena의 Vesta 플랫폼이 이러한 비전을 가속화하는 방법은 무엇일까요?

CPO와 NPO는 전체 AI 네트워킹 스택 전반의 효율성을 개선하는 역할을 맡고 있습니다. AI 클러스터 내의 스위칭 용량이 계속 증가함에 따라 기존 방식의 스위치와 광 모듈 간의 전기적 상호연결은 전력 및 신호 무결성 측면에서 점점 더 많은 제약을 받게 됩니다.

광학 장치를 XPU와 스위칭 장치에 더 가깝게 배치하면 전력 효율성과 밀도를 대폭 개선하여 전체 시스템 용량을 지속적으로 확장할 수 있습니다.

바로 이 부분에서 Vesta와 같은 솔루션이 활약하게 됩니다. Vesta는 고용량 광 인터커넥트 엔진으로 설계되어 XPU, 스위칭 인프라, 광 네트워크 사이를 보다 효율적으로 연결해 줍니다.

Vesta200_3-2T-CPX Vesta 200 6.4T CPX 플러그형 CPO 엔진

CPO와 NPO는 데이터 센터 내부의 스케일업 및 스케일아웃에 광범위하게 사용될 것이며 보다 광범위한 전송 네트워크의 고효율 '클라이언트'가 되어 외부 전체 스펙트럼 트랜스폰더가 있을 경우 기존의 백투백 회색 광학 문제를 더 효과적으로 해결할 수 있습니다.

AI는 유례 없는 대역폭 증가를 유발하지만, 네트워크를 운영하는 데에도 사용되고 있습니다. 자동화와 AI는 네트워크 운영을 어떻게 변화시키고 있나요?

AI 인프라를 지원하기 위해 네트워크가 확장됨에 따라 운영 효율성이 초기 용량만큼이나 중요해지고 있습니다. 단순히 더 큰 규모의 네트워크를 구축하는 것이 중요한 게 아니라 이러한 네트워크를 더 빠르고 안정적으로 구축, 최적화, 관리할 수 있는 능력이 중요합니다.

이 부분에서 소프트웨어는 매우 중요한 역할을 합니다. Ciena에서는 수년에 걸쳐 네트워크 장비에 고급 계측 및 자동화 기술을 탑재해 왔습니다. 예를 들어, Automated Deployment Optimizer와 같은 Navigator NCS 애플리케이션은 이제 수주가 아닌 몇 시간 안에 장거리 및 해저 파장을 최적화해서 가동할 수 있습니다.

그렇다면 다음 진화 단계는 네트워크 운영에 AI 기법을 적용하는 것입니다. 사업자는 풍부한 원격 측정 데이터와 디지털 트윈 검증으로 품질 보증 및 라우팅 최적화 등의 작업을 자동화하여 증가하는 복잡성에 맞춰 네트워크를 더욱 효율적으로 확장할 수 있습니다.

앞으로 5년이 지나면 무엇이 광학 네트워킹의 혁신이 될까요?

AI 기반 수요로 인해 업계는 네트워킹의 거의 모든 측면을 재고해야 하기 때문에, 지금은 이 분야에서 일하는 것이 정말 흥미로울 수 있는 시기입니다.

앞으로도 전기-광학 통합 및 포토닉스 소형화 분야에서 주요한 발전이 꾸준히 이루어지며 공간 및 전력 효율성이 더욱 향상될 것입니다. 더 막대한 용량을 지원할 수 있도록 네트워크가 확장됨에 따라 새로운 광섬유 기술도 중요한 역할을 하게 될 것입니다.

또한 높은 수준의 성능을 지원하면서 신뢰성과 효율성을 더욱 개선할 수 있도록 열 관리 및 액체 냉각 등의 영역에서도 혁신 기술 개발을 모색하고 있습니다.

결국 성공은 고객과 파트너와 긴밀하게 협업하면서 새로운 기술을 배포 가능한 대규모 솔루션으로 전환할 수 있는지가 관건이 될 것입니다.