30. AGI Systems 단계별 학습 문서

원문 경로

/Users/keumky/Documents/New project 3/sources/mlsysbook/30-frontiers/source.md

짧은 소개

이 장은 AGI, 즉 Artificial General Intelligence를 “엄청나게 큰 모델 하나”로만 보지 않아요. 원문은 AGI를 여러 모델, 도구, 메모리, 검색 시스템, 검증기, 하드웨어, 운영 체계가 함께 움직이는 시스템 통합 문제로 설명해요.

핵심 질문은 이것입니다.

질문	이 장에서 보는 방향
현재 AI는 왜 아직 일반지능이 아닌가요?	기억, 인과 추론, 계획, 실제 세계 이해가 부족하기 때문이에요.
AGI는 어떻게 만들어질 수 있나요?	scaling, neurosymbolic, embodied intelligence, multi-agent 같은 여러 접근이 있어요.
compound AI system은 왜 중요한가요?	단일 모델이 못 하는 일을 전문 구성요소들이 나누어 처리할 수 있기 때문이에요.
ML 시스템 엔지니어에게 왜 중요한가요?	데이터, 학습, 최적화, 하드웨어, 운영, 안전이 모두 연결되는 문제이기 때문이에요.

읽는 방법

이 장은 미래 기술을 다루지만, 막연한 예측을 읽는 장이 아니에요. 원문은 “AGI가 언제 오나요?”보다 “AGI 수준의 시스템을 만들려면 어떤 구성요소와 운영 원리가 필요한가요?”를 묻고 있어요.

처음에는 다음 순서로 반복해서 읽어보면 좋아요.

먼저 목차와 요약을 훑으며 AGI는 시스템 문제라는 큰 뼈대를 잡아요.
그다음 compound AI system의 흐름을 보며 모델 하나가 아니라 여러 부품의 조합이라는 그림을 만들어요.
마지막으로 state space model, energy-based model, RLHF, continual learning, multi-agent coordination 같은 세부 내용을 깊게 파고들어요.

읽을 때는 아래 질문을 계속 옆에 두면 좋아요.

읽는 단계	붙잡을 질문
1회독	“이 기술은 어떤 한계를 해결하려고 나왔나요?”
2회독	“데이터가 어디서 들어와서 어떤 구성요소를 거쳐 결과가 되나요?”
3회독	“계산량, 메모리, 지연시간, 안전성 측면에서 어떤 대가를 치르나요?”

이 장의 한 줄 요약

AGI는 단순히 더 큰 모델을 만드는 문제가 아니라, 데이터, 모델, 메모리, 도구, 추론, 안전, 하드웨어, 운영을 함께 조율하는 compound AI system을 설계하는 문제예요.

1단계: 중학교 수준

AGI를 아주 쉽게 말해볼게요

지금의 AI는 “특정 일을 잘하는 도구”에 가까워요. 번역을 잘하는 AI, 그림을 잘 그리는 AI, 코드를 잘 쓰는 AI처럼요. 반면 AGI는 낯선 상황에서도 배우고, 기억하고, 계획하고, 여러 분야의 지식을 옮겨 쓸 수 있는 더 넓은 지능을 뜻해요.

비유하자면 지금의 AI는 아주 뛰어난 과목별 선생님들이에요. 수학 선생님, 영어 선생님, 미술 선생님이 따로 있는 느낌이에요. AGI는 한 사람이 여러 과목을 이해하고, 새 문제를 만나도 “이전에 배운 걸 어떻게 써먹을까?”를 생각하는 모습에 더 가까워요.

왜 모델 하나만으로는 부족할 수 있을까요?

똑똑한 사람도 혼자 머릿속으로만 모든 일을 하지 않아요. 메모장을 쓰고, 검색을 하고, 계산기를 쓰고, 다른 사람에게 물어보고, 잘못된 답을 다시 확인해요.

AI도 비슷해요. 큰 언어 모델 하나가 모든 지식을 외우고, 모든 계산을 하고, 모든 판단을 안전하게 내리기는 어려워요. 그래서 원문은 여러 전문 도구가 함께 일하는 방식을 중요하게 봐요. 이것을 compound AI system이라고 불러요.

Compound AI system은 회사 팀과 비슷해요

큰 회사에는 한 사람이 모든 일을 하지 않아요. 대표가 방향을 정하고, 회계팀은 돈을 계산하고, 법무팀은 위험을 검토하고, 개발팀은 제품을 만들고, 고객지원팀은 사용자의 문제를 해결해요.

compound AI system도 비슷해요.

회사의 역할	AI 시스템에서 비슷한 역할
대표	어떤 부품을 쓸지 정하는 조율자
자료실	필요한 정보를 찾아오는 검색 시스템
계산 담당	코드를 실행하거나 수치를 분석하는 도구
검토 담당	답이 안전하고 맞는지 확인하는 검증기
전문가 팀	수학, 코딩, 이미지, 로봇처럼 특정 일을 잘하는 모델

이렇게 나누면 한 부품이 부족해도 다른 부품으로 보완할 수 있어요. 또 문제가 생겼을 때 “검색이 틀렸나요?”, “계산이 틀렸나요?”, “최종 설명이 틀렸나요?”처럼 원인을 찾기 쉬워져요.

현재 AI가 아직 어려워하는 것들

현재 AI는 말을 그럴듯하게 잘하지만, 다음 일들은 아직 어렵습니다.

어려운 점	쉬운 표현
Persistent memory	어제 한 일을 오래 기억하기
Causal reasoning	무엇이 무엇의 원인인지 알기
Planning	여러 단계를 미리 계획하고 되돌아보기
Symbol grounding	말의 뜻을 실제 경험과 연결하기
Alignment	사람이 원하지 않는 방향으로 가지 않게 하기

예를 들어 AI가 “비가 오면 우산을 써요”라는 말을 자주 봤다고 해도, 정말로 비가 몸을 젖게 하고 우산이 그것을 막는다는 실제 경험을 갖고 있는 것은 아니에요. 원문은 이런 차이를 AGI의 큰 장벽으로 봐요.

네 가지 큰 길

원문은 AGI로 가는 대표적인 길을 네 가지로 소개해요.

접근	일상 비유
Scaling	더 큰 도서관과 더 큰 공부 시간을 주면 더 똑똑해질 수 있다는 생각이에요.
Neurosymbolic	직감이 좋은 사람과 논리 검토자가 함께 문제를 푸는 방식이에요.
Embodied intelligence	책으로만 배우지 않고 직접 만지고 움직이며 배우는 방식이에요.
Multi-agent	여러 전문가가 회의하면서 혼자보다 더 나은 답을 만드는 방식이에요.

1단계 중간 정리

이 장의 큰 그림은 간단해요.

AGI는 “큰 뇌 하나”만의 문제가 아니에요. 기억, 검색, 계산, 검증, 도구 사용, 여러 전문가의 협력, 안전장치가 함께 움직이는 “잘 조직된 팀”에 가까워요.

2단계: 고등학교 수준

블랙박스 안의 흐름을 열어볼게요

1단계에서는 AI 시스템을 회사 팀처럼 봤어요. 이제 조금 더 논리적으로 보겠습니다. compound AI system은 보통 다음 흐름으로 움직여요.

사용자 요청
  -> 조율자가 의도 파악
  -> 필요한 구성요소 선택
  -> 검색, 계산, 추론, 검증 수행
  -> 결과를 합쳐 답변 생성
  -> 안전성 및 품질 확인

여기서 중요한 점은 모든 요청이 같은 길을 지나가지 않는다는 거예요. 날씨 질문은 검색이 중요하고, 수학 증명은 추론과 검증이 중요하고, 코드 문제는 실행기와 테스트가 중요해요.

Scaling을 간단한 수학으로 보기

Scaling hypothesis는 모델 크기, 데이터 크기, 계산량을 키우면 성능이 예측 가능한 방식으로 좋아진다는 생각이에요. 원문은 손실이 대략 다음처럼 줄어든다고 설명해요.

늘리는 것	관계의 의미
모델 파라미터 수 `N`	`N`이 커질수록 손실이 줄어드는 경향이 있어요.
데이터 크기 `D`	좋은 데이터가 많을수록 예측이 좋아져요.
계산량 `C`	학습에 더 많은 계산을 쓰면 성능이 올라갈 수 있어요.

이를 아주 단순화하면 “공부할 책, 머리 용량, 공부 시간이 함께 늘면 시험 점수가 오를 수 있다”는 말이에요. 하지만 책상과 전기요금이 무한하지 않듯이, 계산 비용과 에너지 비용도 한계가 있어요.

Transformer의 긴 문맥 문제가 왜 생기나요?

Transformer는 문장 안의 단어들이 서로 어떤 관계인지 비교해요. 단어가 n개 있으면 서로 비교해야 할 쌍이 대략 n^2개가 돼요.

토큰 수	비교량의 느낌
1,000개	약 1,000,000번
10,000개	약 100,000,000번
100,000개	약 10,000,000,000번

그래서 아주 긴 문서, 긴 대화, 큰 코드베이스를 한 번에 다루려면 계산량이 빠르게 커져요. 이 한계를 줄이려고 state space model 같은 대안이 등장해요.

Selective computation: 필요한 전문가만 부르기

모든 질문에 모든 전문가를 부르면 비효율적이에요. “2+2는?”이라는 질문에 번역 전문가, 이미지 전문가, 법률 전문가까지 모두 부를 필요는 없어요.

Mixture of Experts는 이 문제를 줄이려는 방식이에요. 입력을 보고 “이번에는 수학 전문가와 언어 전문가만 쓰자”처럼 일부 전문가만 활성화해요.

입력
  -> 라우터가 전문가별 점수 계산
  -> 상위 전문가 몇 개 선택
  -> 선택된 전문가만 계산
  -> 결과를 합침

이 방식은 효율적이지만, 라우터가 특정 전문가만 계속 고르면 문제가 생겨요. 어떤 전문가는 과로하고, 어떤 전문가는 거의 쓰이지 않게 됩니다. 원문은 이것을 load balancing과 expert collapse 문제로 설명해요.

여러 단계 추론의 오차 누적

복잡한 문제는 한 번에 답이 나오지 않아요. 여러 단계를 거쳐야 해요. 그런데 각 단계가 90% 정확하다고 해도 5단계를 모두 맞힐 확률은 0.9^5라서 약 59%까지 떨어져요.

그래서 compound AI system은 중간 단계를 나누고 검증기를 붙여요.

방식	특징
단일 모델 직접 답변	빠르지만 중간 오류를 찾기 어려워요.
단계별 추론 + 검증	느릴 수 있지만 어느 단계가 틀렸는지 추적하기 쉬워요.

학습 방법도 여러 단계가 필요해요

원문은 RLHF를 대표 예로 들어요. 사람의 선호를 학습에 넣는 방식입니다.

단계	하는 일
1단계	사람이 좋은 답변 예시를 만들어 모델을 미세조정해요.
2단계	여러 답변을 비교해 어떤 답이 더 좋은지 보상 모델을 학습해요.
3단계	보상 모델이 높게 평가하는 방향으로 모델을 다시 조정해요.

여기서 중요한 점은 모델이 단순히 “다음 단어 맞히기”만 배우는 것이 아니라, “사람이 더 낫다고 느끼는 답변” 쪽으로 조정된다는 거예요.

2단계 중간 정리

AGI로 가는 길에서는 다음 네 가지 흐름을 동시에 봐야 해요.

흐름	핵심 질문
데이터	좋은 학습 재료를 충분히 만들고 고를 수 있나요?
아키텍처	필요한 계산만 효율적으로 쓰게 할 수 있나요?
학습	사람의 의도와 안전 기준에 맞게 훈련할 수 있나요?
운영	여러 부품이 실패해도 전체 시스템이 안정적으로 동작하나요?

3단계: 대학교 수준

이제 원문의 section 흐름을 따라가며 자세히 볼게요. 1단계와 2단계의 직관을 유지하되, 여기서는 수식, 계산 복잡도, 아키텍처의 한계, 운영상의 edge case까지 함께 다룹니다.

1. Purpose: 왜 frontier를 배워야 하나요?

원문은 ML 시스템 실무자가 현재 구현만 익히는 것으로는 부족하다고 말해요. AI 분야는 알고리즘, 하드웨어, 학습 방식, 운영 패턴이 빠르게 바뀌기 때문이에요.

이 장의 목적은 최신 유행을 외우는 것이 아니라, 빠르게 바뀌는 기술 속에서도 오래 버틸 수 있는 시스템 판단력을 기르는 데 있어요. 오늘의 모델 이름은 바뀔 수 있지만, 다음 질문들은 계속 남아요.

판단 질문	시스템 설계에서의 의미
이 구조는 나중에 다른 모델로 교체하기 쉬운가요?	모듈성
긴 문맥, 메모리, 도구 사용을 붙일 수 있나요?	확장성
비용과 지연시간이 폭증하지 않나요?	효율성
실패했을 때 원인을 추적할 수 있나요?	관측 가능성
안전 검증을 계속 운영할 수 있나요?	alignment와 신뢰성

2. From Specialized AI to General Intelligence

현재의 대규모 AI는 다양한 작업에서 뛰어난 결과를 보이지만, 원문은 그것이 곧 일반지능은 아니라고 선을 그어요. 대표적인 결함은 다음과 같아요.

현재 AI의 결함	왜 중요한가요?
지속 기억 부족	이전 대화나 경험을 장기적으로 축적하기 어려워요.
인과 추론 부족	상관관계를 원인으로 착각할 수 있어요.
계획 능력 부족	긴 프로젝트에서 중간 오류가 누적될 수 있어요.
도메인 간 전이 한계	한 분야의 배움을 다른 분야에 안정적으로 옮기기 어려워요.

원문은 AGI를 “새 알고리즘 하나의 기적”보다 이질적인 구성요소의 통합 문제로 봐요. 지각, 추론, 기억, 학습, 도구 사용, 안전 검증이 한 시스템 안에서 협력해야 하기 때문이에요.

이 장의 분석 방향은 세 갈래예요.

AGI를 시스템 통합 문제로 정의해요.
compound AI system을 현실적인 중간 경로로 분석해요.
transformer 이후의 대안 아키텍처와 학습 방법을 살펴봐요.

3. Defining AGI: Intelligence as a Systems Problem

AGI는 특정 과제에 맞춘 좁은 AI와 달리, 여러 환경에서 지식을 옮겨 쓰고 계속 배우며 목표를 달성하는 시스템을 뜻해요. 원문은 인간 뇌의 예를 들어, 지능이 단일 부품에서 나오기보다 여러 하위 시스템의 계층적 통합에서 나온다고 설명해요.

뇌에는 감각 처리, 기억, 실행 제어, 운동 예측 같은 기능이 나뉘어 있어요. AGI도 이와 비슷하게 여러 특화 구성요소의 조율로 등장할 가능성이 있다는 것이 원문의 관점이에요.

3.1 Scaling hypothesis

Scaling hypothesis는 parameter count N, dataset size D, compute budget C를 키우면 성능이 법칙적으로 좋아진다고 보는 관점이에요. 원문은 손실이 대략 power law 형태로 감소한다고 설명해요.

L(N) ∝ N^(-α)
L(D) ∝ D^(-β)
L(C) ∝ C^(-γ)

여기서 L은 손실이고, α, β, γ는 증가에 따른 성능 개선 속도를 나타내요. 의미는 간단해요. 모델, 데이터, 계산을 늘리면 손실은 줄지만, 줄어드는 속도는 점점 완만해질 수 있어요.

원문은 또 하나의 scaling 방향으로 inference-time compute를 말해요. 학습 때만 계산을 많이 쓰는 것이 아니라, 답변을 만들 때 더 오래 생각하고 여러 경로를 탐색하게 하면 복잡한 추론 성능이 좋아질 수 있다는 관점이에요.

하지만 이 길은 매우 비싸요. 원문은 AGI 규모 학습에 약 2.5 × 10^26 FLOPs가 필요할 수 있다는 추정과, 거대한 GPU 수, 전력, 비용 문제를 언급해요. 따라서 scaling은 강력하지만, 데이터센터 조율, 하드웨어 활용률, 전력 공급, 통신 병목을 모두 해결해야 하는 시스템 문제예요.

3.2 Hybrid neurosymbolic architectures

Neurosymbolic 접근은 neural network의 패턴 인식과 symbolic system의 명시적 추론을 결합해요.

구성요소	잘하는 일	약점
Neural component	이미지, 언어, 복잡한 패턴을 잘 잡아요.	왜 그런 결론인지 명시적으로 증명하기 어려워요.
Symbolic component	규칙, 증명, 제약 조건을 엄밀히 다뤄요.	현실의 복잡하고 흐릿한 입력을 직접 처리하기 어려워요.

원문은 AlphaGeometry를 예로 들어요. transformer가 유망한 기하 보조선을 제안하고, symbolic deduction engine이 고전 기하 공리로 그 단계를 검증해요. 이 분업은 “직관이 방향을 제안하고, 논리가 맞는지 검사하는” 구조예요.

공학적 난점은 두 세계의 표현 방식이 다르다는 점이에요. neural network는 연속 벡터와 gradient descent로 움직이고, symbolic engine은 이산 기호와 규칙 추론으로 움직여요. 따라서 embedding과 symbol의 정렬, GPU 계산과 CPU 추론의 스케줄링, 미분 불가능한 연산을 포함한 학습 루프가 모두 문제가 됩니다.

3.3 Embodied intelligence

Embodied intelligence는 지능이 몸과 환경의 상호작용에서 나온다고 보는 관점이에요. “무겁다”, “미끄럽다”, “조심히 잡다” 같은 개념은 텍스트 정의만으로는 충분하지 않을 수 있어요.

원문은 RT-2 같은 vision-language-action 모델을 예로 들어요. 인터넷 규모의 시각-언어 지식을 로봇 행동 데이터와 연결하면, 실제 물체를 집는 작업에서 더 넓은 일반화가 가능해질 수 있어요.

하지만 로봇과 실제 세계는 시스템 제약이 훨씬 엄격해요.

제약	의미
낮은 지연시간	제어 루프는 짧은 시간 안에 반응해야 해요.
안전성	잘못된 행동은 물리적 피해를 만들 수 있어요.
noisy sensor	카메라, 촉각, 위치 센서는 항상 깨끗하지 않아요.
continual adaptation	환경이 바뀌어도 안전 속성을 잃지 않아야 해요.

그래서 원문은 learned policy와 hard-coded safety controller를 결합하는 하이브리드 안전 구조를 강조해요.

3.4 Multi-agent systems and emergent intelligence

네 번째 접근은 지능을 단일 개체 안에 넣지 않고, 여러 agent의 상호작용에서 보려는 관점이에요. 여러 agent가 협력하거나 경쟁하면 단일 agent보다 복잡한 행동이 나타날 수 있어요.

원문은 hide-and-seek agent 실험을 예로 들어, 경쟁이 도구 사용과 전략을 만들어낼 수 있음을 설명해요. 하지만 AGI 규모에서는 단순한 분산 시스템보다 더 어려운 문제가 생겨요. agent들은 동일한 서버 노드가 아니라 서로 다른 세계 모델, 목표, 추론 방식을 가진 지능적 구성요소이기 때문이에요.

4. The Compound AI Systems Framework

compound AI system은 여러 전문 구성요소를 조율하여 단일 모델보다 더 넓은 능력을 만드는 구조예요. 현대 AI assistant도 이미 이 구조를 보여줘요.

예를 들어 주식 시장 분석 요청을 생각해볼게요.

사용자 요청
  -> 언어 모델이 종목, 기간, 분석 종류를 파악
  -> 웹 검색 또는 API로 최신 가격과 뉴스를 가져옴
  -> 코드 실행기가 통계 분석을 수행
  -> 언어 모델이 결과를 설명
  -> 필요하면 그래프 생성 도구가 시각화

이 구조는 다음 장점이 있어요.

장점	설명
Modularity	한 구성요소만 교체하거나 업데이트할 수 있어요.
Specialization	검색, 계산, 생성, 검증이 각자 잘하는 방식으로 최적화돼요.
Interpretability	어느 단계에서 오류가 났는지 추적하기 쉬워요.
Scalability	새 기능을 모듈로 추가할 수 있어요.
Safety	여러 검증기를 층층이 둘 수 있어요.

대신 조율자가 매우 중요해져요. 어떤 구성요소를 언제 부를지, 실패하면 어떻게 fallback할지, 여러 결과가 충돌하면 어떻게 합칠지 결정해야 하기 때문이에요.

5. Building Blocks for Compound Intelligence

원문은 compound intelligence를 만들기 위한 building block을 데이터, 동적 아키텍처, 메모리, 추론 구조 관점에서 설명해요.

5.1 Data engineering at scale

대규모 모델은 엄청난 데이터를 필요로 하지만, 고품질 웹 텍스트는 무한하지 않아요. 원문은 GPT-3, GPT-4급 모델의 token 소비와 전체 인터넷의 고품질 token 추정치를 비교하며 데이터 병목을 설명해요.

핵심은 “데이터가 아예 없다”보다 “쓸 만한 데이터를 골라내고 새로 만들고 검증하는 능력이 중요하다”는 점이에요.

5.2 Self-supervised learning components

Self-supervised learning은 사람이 라벨을 달지 않아도 데이터 자체의 구조에서 학습하는 방식이에요. 원문은 인간 학습의 많은 부분도 직접적인 정답 피드백보다 관찰과 패턴 추출에 가깝다고 설명해요.

JEPA는 raw pixel이나 token을 그대로 맞히기보다 latent representation에서 미래 상태를 예측하려는 접근이에요. 예를 들어 공이 굴러가는 영상을 보고 다음 픽셀을 전부 맞히는 대신, 궤적, 충돌, 운동량 같은 추상 정보를 배우려는 식이에요.

compound system에서는 vision module, language module, dynamics module이 각자의 자연 데이터에서 self-supervised로 전문성을 기를 수 있어요. 문제는 이 representation들이 서로 맞물리도록 정렬하는 일이에요.

5.3 Synthetic data generation

합성 데이터는 모델이 학습 재료를 직접 만드는 방식이에요. 다만 아무렇게나 만들면 model collapse가 생길 수 있어요. 원문은 품질 저하를 막는 세 장치를 설명해요.

장치	역할
External verification	수학 증명, 코드 컴파일, 테스트 통과처럼 외부 기준으로 맞는지 확인해요.
Curriculum synthesis	쉬운 문제에서 어려운 문제로 점진적으로 구성해요.
Ensemble verification	여러 critic이 서로 다른 기준으로 합성 데이터를 걸러요.

즉 “그럴듯한 예제”가 아니라 “검증 가능한 예제”를 만드는 것이 핵심이에요.

5.4 Self-play components

Self-play는 agent가 자기 자신 또는 유사한 agent와 경쟁하면서 데이터와 전략을 만들어내는 방식이에요. AlphaGo Zero가 인간 기보 없이 self-play로 강해진 것이 대표 예예요.

원문은 self-play의 핵심을 세 가지로 설명해요.

상대가 함께 강해지므로 난이도가 자동 조절돼요.
search-guided exploration이 현재 정책이 생각하지 못한 경로를 찾아요.
승패, 테스트 통과 여부 같은 명확한 결과가 학습 신호가 돼요.

compound system에서는 debate model, self-critique, code generation과 test validation처럼 여러 형태로 확장될 수 있어요.

5.5 Web-scale data processing

원문은 Common Crawl, GitHub, arXiv, Reddit 같은 long-tail 데이터가 크지만, 품질이 제각각이라고 설명해요. 따라서 핵심은 raw data 수집보다 filtering pipeline이에요.

대규모 raw 데이터
  -> 중복 제거
  -> 품질 분류
  -> 도메인별 추출
  -> 학습 가능한 데이터
  -> 필요 시 합성 데이터로 보강

원문은 대규모 학습에서 raw token의 대부분이 버려질 수 있다고 설명해요. 이 말은 필터 품질을 조금만 개선해도 실제 학습 가능한 고품질 데이터가 크게 늘 수 있다는 뜻이에요.

5.6 Dynamic architectures for compound systems

동적 아키텍처의 목표는 입력의 성격에 따라 필요한 계산만 쓰는 거예요. dense model은 간단한 질문에도 모든 parameter를 활성화해요. 원문은 이것이 메모리 대역폭, 전력, 지연시간 낭비로 이어진다고 설명해요.

사람 뇌도 모든 부위를 항상 똑같이 쓰지 않아요. 시각 문제는 시각 영역이, 언어 문제는 언어 관련 영역이 더 많이 쓰이죠. compound system도 비슷하게 task-specific activation을 노려요.

5.7 Expert routing in compound systems

MoE는 여러 expert network와 router로 구성돼요. router는 입력마다 어떤 expert를 쓸지 확률적으로 고르고, 보통 상위 몇 개 expert만 활성화해요.

이 구조의 난점은 다음과 같아요.

난점	설명
Load balancing	특정 expert에 요청이 몰리면 병목이 생겨요.
Expert collapse	라우터가 소수 expert만 계속 선택할 수 있어요.
Irregular memory access	매번 다른 expert를 읽어야 하므로 메모리 접근이 복잡해져요.
Orchestration	모델 내부 expert뿐 아니라 외부 도구와 모델까지 라우팅해야 해요.

5.8 External memory for compound systems

모든 지식을 모델 parameter에 넣으면 업데이트가 어렵고 오래된 지식 문제가 생겨요. RAG는 외부 지식 저장소에서 관련 정보를 가져와 생성에 사용하는 방식이에요.

원문은 이를 parametric knowledge와 non-parametric knowledge의 결합으로 봐요. 모델 가중치 안에 저장된 지식과, 검색 가능한 외부 데이터베이스의 지식을 함께 쓰는 구조예요.

compound system에서는 여러 구성요소가 공유 knowledge base를 사용할 수 있어요. 하지만 freshness, retrieval reliability, ranking quality, privacy 같은 운영 문제가 따라옵니다.

5.9 Modular reasoning architectures

복잡한 추론은 오류가 누적돼요. 원문은 단계별 정확도가 높아도 여러 단계를 거치면 전체 정확도가 빠르게 떨어질 수 있다고 설명해요.

그래서 chain-of-thought와 modular reasoning은 문제를 작은 단계로 나누고, 중간 결과를 검증하는 방향으로 발전해요.

복잡한 질문
  -> 하위 문제로 분해
  -> 각 단계 추론
  -> 중간 결과 검증
  -> 틀린 단계 수정
  -> 최종 답변 생성

이 패턴은 compound system의 핵심이에요. 전문 구성요소가 structured interface를 통해 협력하고, 검증기가 중간 오류를 잡아야 합니다.

6. Alternative Architectures for AGI

Transformer는 현재 강력하지만, attention이 모든 token 쌍을 비교하기 때문에 긴 context에서 O(n^2) 비용이 들어요. 또 autoregressive generation은 왼쪽에서 오른쪽으로 순차 생성하므로, 나중 조건 때문에 앞부분을 고쳐야 하는 문제에 약해요.

원문은 이를 넘어설 후보로 state space model, energy-based model, world model을 설명해요.

6.1 State space models: efficient long-context processing

State space model은 모든 과거 token을 attention matrix로 비교하기보다, 과거 정보를 압축한 hidden state를 갱신하면서 sequence를 처리해요. 핵심 차이는 다음과 같아요.

방식	긴 sequence 처리
Transformer attention	모든 token 쌍을 비교하므로 `O(n^2)` 비용이 들어요.
State space model	hidden state를 갱신하므로 이상적으로 `O(n)`에 가까워요.

원문은 state space model을 다음 형태로 설명해요.

h_t = A_bar h_(t-1) + B_bar x_t
y_t = C_bar h_t + D_bar x_t

여기서 x_t는 현재 입력, h_t는 지금까지의 정보를 담은 상태, y_t는 출력이에요. 중요한 발전은 selective state space예요. 상태 전이 parameter가 입력에 따라 달라져서, 지금 중요한 정보를 기억하고 덜 중요한 정보를 잊을 수 있어요.

Mamba, RWKV, Liquid Time-constant Networks 같은 모델은 긴 sequence에서 효율성을 보여줘요. 하지만 transformer는 이미 커널, 분산 학습, serving infrastructure가 오랫동안 최적화되어 있어요. 따라서 실무적으로는 완전 교체보다 hybrid approach가 더 현실적일 수 있어요.

6.2 Energy-based models: learning through optimization

Energy-based model은 출력 하나를 순서대로 생성하기보다, 어떤 상태가 “좋은 상태”인지 energy function으로 평가하고 낮은 energy 상태를 찾는 방식이에요.

E(x)가 낮다  -> 더 그럴듯하거나 바람직한 상태
E(x)가 높다  -> 덜 그럴듯하거나 제약을 어긴 상태

확률적으로는 다음처럼 해석할 수 있어요.

p(x) ∝ exp(-E(x) / T)

T는 temperature로, 낮은 energy 상태를 얼마나 강하게 선호할지 조절해요.

EBM의 장점은 전역 제약을 동시에 고려할 수 있다는 점이에요. 예를 들어 프로젝트 계획, Sudoku, 분자 설계처럼 앞의 선택과 뒤의 조건이 서로 얽힌 문제에서는 순차 생성보다 전체 configuration을 최적화하는 접근이 유리할 수 있어요.

하지만 inference가 비싸요. 좋은 상태를 찾기 위해 sampling이나 iterative optimization을 해야 하고, 고차원 공간에서는 local minimum과 계산 비용 문제가 커져요. 원문은 EBM이 compound system 안에서 constraint satisfaction, planning, verification specialist로 쓰일 수 있다고 봐요.

6.3 World models and predictive learning

World model은 환경이 어떻게 움직이는지 내부적으로 시뮬레이션하는 모델이에요. 단순히 “비”와 “젖음”이 같이 나온다는 상관관계를 배우는 것이 아니라, 비가 표면을 젖게 하는 causal mechanism을 배우는 것이 목표예요.

원문은 autoregressive model과 world model의 차이를 다음처럼 설명해요.

모델	배우는 것
Autoregressive model	이전 token을 바탕으로 다음 token 확률을 예측해요.
World model	현재 상태와 행동이 다음 상태를 어떻게 만드는지 배워요.

수식으로는 s_(t+1) = f(s_t, a_t)처럼 볼 수 있어요. 현재 상태 s_t와 행동 a_t에서 다음 상태를 예측하는 구조예요. MuZero는 명시적 게임 규칙 없이 representation, dynamics, prediction 함수를 학습해 계획에 활용한 예로 소개돼요.

AGI 관점에서 world model은 planning, counterfactual reasoning, robotics, social reasoning에 중요해요. 다만 multimodal interaction data가 많이 필요하고, causal prediction을 평가하는 검증 인프라도 필요해요.

6.4 Hybrid architecture integration strategies

원문은 하나의 아키텍처가 모든 문제를 해결한다고 보지 않아요. 각 방식은 장단점이 뚜렷해요.

아키텍처	강점	약점
Transformer	병렬 attention, 자연어 생성이 강해요.	긴 문맥 비용과 순차 생성 제약이 있어요.
State space model	긴 sequence를 효율적으로 다룰 수 있어요.	attention의 표현력을 항상 대체하긴 어려워요.
EBM	전역 최적화와 제약 만족에 좋아요.	inference와 학습이 비쌀 수 있어요.
World model	인과 예측과 계획에 좋아요.	대규모 상호작용 데이터와 검증이 어려워요.

따라서 cascade, parallel ensemble, hierarchical decomposition, dynamic routing 같은 통합 전략이 필요해요. 공학적으로는 학습 방식, gradient 계산, 하드웨어 배치, monitoring failure semantics가 모두 달라져서 orchestration framework가 중요해집니다.

7. Training Methodologies for Compound Systems

compound system은 여러 구성요소가 따로 잘하는 것만으로는 부족해요. 각 구성요소와 orchestrator가 전체 목표와 사람의 의도에 맞게 움직여야 해요.

7.1 Alignment across components

한 구성요소라도 misalignment가 있으면 전체 시스템이 흔들릴 수 있어요. 검색 구성요소가 편향된 정보를 가져오거나, reasoning 구성요소가 유해한 추론을 하거나, safety filter가 놓치면 최종 결과가 위험해질 수 있어요.

따라서 alignment는 단일 모델의 성격 문제가 아니라, 구성요소 간 계약과 검증의 문제예요.

7.2 RLHF: human feedback for component training

RLHF는 사람의 선호를 이용해 모델을 조정하는 방식이에요. 원문은 세 단계를 설명해요.

단계	설명	시스템 요구사항
Supervised fine-tuning	사람이 좋은 답변 예시를 제공해요.	고품질 demonstration 수집
Reward model training	여러 답변을 비교해 선호 모델을 학습해요.	ranking UI와 비교 데이터
Policy optimization	reward를 높이되 원래 모델에서 너무 벗어나지 않게 조정해요.	PPO, KL penalty, 안정적 학습

여기서 KL penalty는 모델이 reward model의 약점을 악용해 이상한 답을 만들지 않도록 원래 정책에서 과도하게 멀어지는 것을 막아요. 단순화하면 다음 목적을 최적화한다고 볼 수 있어요.

좋은 답변 보상 - β × 원래 모델에서 벗어난 정도

원문은 작은 aligned model이 훨씬 큰 unaligned model보다 사용자 평가에서 좋을 수 있음을 강조해요. 규모보다 alignment infrastructure가 더 실용적인 가치를 줄 수 있다는 뜻이에요.

7.3 Constitutional AI

Constitutional AI는 사람의 매번 평가에 의존하는 대신, 명시된 원칙 집합을 사용해 모델이 스스로 비판하고 고치는 방식이에요.

초안 생성
  -> 원칙에 비추어 자기 비판
  -> 수정안 생성
  -> 반복 개선

이 방식은 human feedback의 비용과 일관성 문제를 줄이려는 시도예요. 하지만 constitution 자체를 어떻게 정하고, 어떤 상황에서 어떤 원칙이 우선하는지의 문제가 남아요.

7.4 Continual learning

배포된 모델은 사용자와 상호작용하면서 새로운 정보를 계속 만나지만, 일반적인 모델은 배포 후 고정돼요. Continual learning은 새 정보를 배우면서 기존 능력을 잃지 않으려는 문제를 다뤄요.

핵심 난점은 catastrophic forgetting이에요. 새 작업을 배우는 과정에서 이전 작업 성능이 크게 떨어질 수 있어요.

원문은 해결 방향으로 EWC, progressive neural networks, memory replay를 소개해요.

방법	핵심 아이디어
EWC	이전 작업에 중요했던 parameter를 크게 바꾸지 못하게 해요.
Progressive neural networks	새 지식을 위한 경로를 추가하고 기존 경로는 보존해요.
Memory replay	예전 예제를 다시 연습하며 잊어버림을 줄여요.

8. Production Infrastructure for AGI-Scale Systems

원문은 optimization, hardware, operations를 AGI-scale system의 핵심 인프라로 설명해요.

8.1 Optimization: dynamic intelligence allocation

기존 최적화는 pruning, quantization, distillation처럼 모델 하나를 가볍게 만드는 방향이 많았어요. AGI-scale compound system에서는 이를 동적으로 확장해야 해요.

간단한 요청은 작은 모델이나 빠른 경로가 처리하고, 복잡한 요청은 더 큰 모델, 더 긴 추론 시간, 더 많은 검증 경로를 써야 해요.

쉬운 문제 -> 작은 모델 또는 캐시된 답변
중간 문제 -> 전문 expert 몇 개
어려운 문제 -> 대형 모델 + 검색 + 검증 + 반복 추론

이런 구조는 비용을 줄이지만, 문제 난이도 판별이 틀리면 품질 문제가 생길 수 있어요.

8.2 Hardware: scaling beyond Moore’s law

원문은 전통적인 transistor scaling이 둔화되면서 AGI-scale 요구를 만족하려면 post-Moore’s Law 접근이 필요하다고 설명해요.

방향	의미
3D chip stacking	수직으로 더 많은 회로를 쌓아 밀도를 높여요.
Chiplet	여러 특화 칩을 조합해 시스템을 만들어요.
Optical interconnect	대규모 processor 간 통신 에너지를 줄여요.
Processing-in-memory	데이터를 옮기지 않고 메모리 근처에서 계산해요.
Neuromorphic computing	spike 기반, event-driven 계산으로 에너지 효율을 노려요.
Quantum-classical hybrid	특정 최적화 문제에서 양자 가속 가능성을 탐색해요.

핵심은 단일 GPU 성능만이 아니라, heterogeneous hardware를 어떻게 프로그래밍하고 조율하느냐예요.

8.3 Operations: continuous system evolution

AGI-scale system은 고정된 모델 하나를 배포하는 것이 아니라, 계속 배우고 바뀌는 시스템에 가까워요. 그래서 운영 방식도 바뀌어야 해요.

운영 문제	왜 어려운가요?
Continuous updates	모델이 계속 바뀌면 버전 관리와 재현성이 어려워져요.
Personalized variants	사용자별 모델이 달라지면 A/B test가 복잡해져요.
Semantic monitoring	200 OK 응답이어도 내용이 틀릴 수 있어요.
Safety monitoring	유해 출력, prompt injection, adversarial attack을 의미 수준에서 감지해야 해요.

즉 latency, throughput, error rate만 보는 기존 모니터링으로는 부족하고, 내용 품질과 안전성까지 관측해야 해요.

8.4 Integrated system architecture design

여섯 building block은 따로 최적화하면 충분하지 않아요. 데이터 결정은 가능한 아키텍처를 제한하고, 아키텍처는 최적화 기회를 바꾸고, 하드웨어는 실제 성능을 제한하며, 운영 요구사항은 다시 설계를 바꿔요.

원문은 세 가지 통합 패턴을 설명해요.

통합 패턴	장점	단점
Horizontal integration	공통 인프라를 공유해 운영이 단순해요.	구성요소별 최적화가 제한돼요.
Vertical integration	구성요소별로 데이터, 모델, 하드웨어, 운영을 맞춤화해요.	운영 복잡도가 커져요.
Hierarchical integration	공통 기반 위에 일부 맞춤화를 허용해요.	추상화 경계가 복잡해져요.

조직의 역량과 제품 요구사항에 따라 어느 패턴이 적합한지 달라져요.

9. Production Deployment of Compound AI Systems

이제 building block을 실제 production system으로 조립하는 문제를 봐요. 원문은 central orchestrator가 component routing, state management, fallback, monitoring을 수행한다고 설명해요.

9.1 Request routing pattern

사용자 요청이 들어오면 먼저 intent classification이 필요해요. 간단한 모델이 빠르게 큰 범주를 나누고, 이후 세부 라우팅이 구체적인 구성요소 조합을 고릅니다.

예를 들어 “도쿄 날씨 알려줘”는 실시간 검색, 위치 해석, 단위 변환이 필요해요. 반면 “이 코드의 버그를 찾아줘”는 코드 실행기와 테스트가 필요해요.

9.2 Orchestration state machine

복잡한 요청은 여러 단계를 거쳐요. 각 단계의 결과를 저장하고, 실패하면 어디서 재시작할지 알아야 해요.

질문 분해
  -> 병렬 검색
  -> 결과 ranking
  -> 추론 구성요소에 전달
  -> 주장 검증
  -> 최종 답변 작성

이때 workflow state를 Redis나 Memcached 같은 분산 메모리에 저장할 수 있고, 단계별 checkpoint가 장애 복구를 도와요.

9.3 Error handling and resilience

component가 늘어나면 장애도 늘어나요. 원문은 circuit breaker pattern을 설명해요. 어떤 구성요소의 실패율이 일정 기준을 넘으면 잠시 차단하고 fallback 경로로 보내는 방식이에요.

장애	대응
Component timeout	백업 component 또는 degraded response로 전환해요.
Dependency failure	일부 기능만 제한하고 전체 서비스는 유지해요.
Coordination deadlock	circuit breaker와 timeout 정책으로 끊어내요.
Safety component failure	낮은 성능의 backup filter라도 사용해 안전 검사를 유지해요.

9.4 Dynamic component scaling

각 구성요소는 병목이 달라요. LLM inference는 GPU 계산이 중요하고, vector search는 SSD와 메모리 대역폭이 중요하며, code execution은 sandbox isolation이 중요해요.

따라서 orchestrator는 component-level latency, throughput, error rate, resource utilization을 보고 scaling 결정을 내려야 해요. 우선순위 큐와 fair scheduling도 필요해요.

9.5 Monitoring, observability, versioning

compound system에서는 전통적인 시스템 지표만으로 부족해요. retrieval이 관련 없는 문서를 가져왔지만 오류는 발생하지 않을 수 있고, reasoning component가 그럴듯한 환각을 만들 수도 있어요.

그래서 semantic monitoring이 필요해요.

모니터링	확인하는 것
Fact-checking	주장과 근거가 맞는지 확인해요.
Consistency checking	이전 대화와 모순되지 않는지 봐요.
Safety filtering	유해하거나 위험한 내용이 있는지 봐요.
Calibration monitoring	confidence와 실제 정확도가 맞는지 봐요.

또한 구성요소가 독립적으로 업데이트되므로 compatibility matrix가 중요해요. base model이 바뀌면 기존 safety filter나 retriever와 여전히 잘 맞는지 검증해야 해요.

10. Remaining Technical Barriers

원문은 building block이 발전해도 AGI까지는 다섯 장벽이 남아 있다고 말해요.

10.1 Memory and context limitations

현재 AI는 긴 context window를 가질 수 있지만, 세션을 넘어선 지속 기억은 약해요. 인간은 적은 working memory와 방대한 long-term memory를 함께 쓰지만, 현재 시스템은 긴 문서를 읽어도 어제의 대화를 자연스럽게 기억하지 못해요.

필요한 것은 단순 저장이 아니라 계층적이고 연상적인 memory system이에요.

필요한 기능	설명
Hierarchical indexing	사건, 날짜, 주제 단위로 기억을 정리해요.
Selective forgetting	중요하지 않은 정보를 지워 context를 관리해요.
Experience consolidation	짧은 상호작용을 장기 지식으로 옮겨요.
Associative retrieval	단서 하나로 관련 기억을 빠르게 찾아요.

10.2 Energy efficiency and computational scale

원문은 GPT-4급 학습의 전력 소비와 AGI 규모 확장 시의 에너지 문제를 강조해요. 인간 뇌는 약 20W로 작동하지만, 현재 디지털 시스템은 대규모 matrix multiplication과 데이터 이동에 막대한 에너지를 써요.

따라서 단순히 더 많은 GPU를 붙이는 것으로는 부족해요. neuromorphic architecture, reversible computing, algorithmic efficiency, processing-in-memory 같은 접근이 필요해요.

10.3 Causal reasoning and planning capabilities

현재 모델은 익숙한 패턴에는 강하지만, 진짜 새로운 문제에서는 성능이 급격히 떨어질 수 있어요. 원문은 pattern matching과 reasoning을 구분해요.

진짜 추론에는 다음이 필요해요.

능력	의미
World model	행동의 결과를 예측하는 내부 시뮬레이터예요.
Search	가능성을 체계적으로 탐색하고 되돌아갈 수 있어요.
Causal understanding	상관관계와 인과관계를 구분해요.
Explicit planning	상태, 행동, 목표를 표현하고 경로를 찾을 수 있어요.

10.4 Symbol grounding and embodied intelligence

언어 모델은 “고양이”라는 단어와 “야옹”, “털”의 관계를 배울 수 있지만, 실제 고양이를 만지는 경험은 없어요. 이것이 symbol grounding 문제예요.

현실 세계와 상호작용하는 시스템은 sub-100ms 제어, noisy sensor, 안전한 exploration, on-device learning 같은 제약을 만족해야 해요. 그렇지만 이런 embodiment가 “무겁다”, “부드럽다”, “조심스럽다” 같은 개념의 이해에 중요할 수 있어요.

10.5 AI alignment and value specification

Alignment는 AGI가 인간의 가치와 의도에 맞게 행동하도록 만드는 문제예요. 단순한 reward function은 proxy일 뿐이라 강하게 최적화하면 부작용이 생길 수 있어요.

원문은 alignment를 네 가지 문제로 나눠요.

문제	질문
Value specification	인간이 실제로 원하는 것을 어떻게 명시하나요?
Robust optimization	목표를 편법으로 악용하지 않게 하려면 어떻게 하나요?
Corrigibility	더 강해진 시스템이 수정 가능성을 유지하게 할 수 있나요?
Scalable oversight	사람이 직접 검증할 수 없는 일을 어떻게 감독하나요?

원문은 alignment tax도 강조해요. 안전 검증, 가치 점검, oversight는 한 번 해결하고 끝나는 비용이 아니라 신뢰 가능한 지능 시스템 운영의 지속 비용이에요.

11. Emergent Intelligence Through Multi-Agent Coordination

원문은 단일 agent가 모든 장벽을 동시에 해결하기 어렵다면, 여러 specialized agent가 협력하는 길이 있을 수 있다고 설명해요.

Multi-agent system의 가능성은 다음과 같아요.

장벽	multi-agent 관점의 완화 가능성
Memory	agent별 domain memory를 유지할 수 있어요.
Energy	필요한 agent만 활성화해 계산을 줄일 수 있어요.
Reasoning	여러 reasoning chain과 verifier가 협력할 수 있어요.
Embodiment	물리 agent와 디지털 agent를 나눌 수 있어요.
Alignment	좁고 검증 가능한 목표를 가진 agent로 나눌 수 있어요.

하지만 새로운 어려움도 커요.

11.1 Agent specialization

과학 reasoning agent, 창의적 생성 agent, 전략 계획 agent, embodied agent처럼 역할이 나뉠 수 있어요. 이는 microservice와 비슷하지만, 각 service가 reasoning state와 uncertainty를 가진다는 점에서 훨씬 복잡해요.

11.2 Communication protocols

전통적인 분산 시스템은 상태 값이나 요청/응답을 주고받아요. AGI agent는 partial world model, reasoning chain, uncertainty estimate, intent representation 같은 의미 정보까지 전달해야 해요.

따라서 단순 TCP/IP 수준의 통신이 아니라 semantic compression, content-aware routing, reasoning-aware network stack 같은 개념이 필요할 수 있어요.

11.3 Network topology

agent가 n개일 때 모두가 모두와 직접 통신하면 O(n^2) 복잡도가 돼요. 그래서 원문은 hierarchical topology를 말해요.

local agent cluster
  -> regional hub
  -> global coordination layer

이렇게 하면 통신 복잡도를 줄이고, 관련 있는 reasoning task를 가까운 agent에게 보낼 수 있어요.

11.4 Consensus and Byzantine threats

AGI consensus는 단순한 값 합의가 아니에요. 서로 다른 세계 모델, 가치 판단, 추론 경로가 충돌할 수 있어요. 따라서 단순 다수결보다 argument quality, past accuracy, uncertainty를 고려하는 consensus가 필요해요.

또한 agent 실패는 단순 crash가 아닐 수 있어요. 편향된 데이터로 학습한 agent, misaligned objective를 가진 agent, adversarial attack을 받은 agent가 다른 agent를 설득하거나 오염시킬 수 있어요. 전통적인 Byzantine fault tolerance보다 의미와 목표 수준의 방어가 필요합니다.

11.5 Resource coordination

수많은 agent가 compute, memory bandwidth, network capacity를 공유하면 자원 조율이 핵심이 돼요. 현재 부하뿐 아니라 reasoning difficulty를 예측해 자원을 배분해야 해요.

원문은 Kubernetes 수준을 넘어서는 predictive load balancing, reasoning urgency 기반 priority, resource constraint 상황의 graceful degradation이 필요하다고 설명해요.

12. Engineering Pathways to AGI

원문은 AGI 논의가 먼 미래 이야기로만 남으면 실무자에게 충분하지 않다고 말해요. 현재 투자할 수 있는 기회와 마주해야 할 과제를 연결해야 해요.

12.1 Opportunity landscape: infrastructure to apps

세 가지 기회 영역이 제시돼요.

영역	예시
Foundational infrastructure	GPU utilization 개선, MoE training platform, continuous learning pipeline
Enabling technologies	multimodal processing, edge-cloud hybrid, explainability
End-user applications	개인화 AI, real-time intelligence, workflow automation

원문은 GPU cluster utilization이 20-40% 수준이라면 이를 70-80%로 올리는 것만으로도 큰 비용 절감이 가능하다고 설명해요. 즉 AGI frontier는 모델 연구자만의 문제가 아니라 인프라 엔지니어의 문제이기도 해요.

12.2 Technical challenges: reliability and performance

AGI-scale training은 비용이 크고 구성요소가 많기 때문에 99.9% 신뢰성도 충분하지 않을 수 있어요. 긴 학습 중 한 장애가 수주간의 진행을 날릴 수 있기 때문이에요.

필요한 것은 checkpointing, partial progress recovery, fault-tolerant algorithms, predictive failure detection이에요. 또한 CPU, GPU, TPU, quantum processor, neuromorphic chip이 함께 쓰일 수 있어 heterogeneous orchestration abstraction도 필요해요.

12.3 Operational challenges: testing and deployment

AI-driven workflow는 초기 작은 오류가 뒤 단계 전체를 망칠 수 있어요. 그래서 중간 checkpoint, confidence monitoring, rollback, human review trigger가 필요해요.

또한 trust calibration이 중요해요. 언제 자동화에 맡기고, 언제 사람에게 넘길지 결정해야 합니다. 안전 모니터링도 latency나 error rate가 아니라 content와 intent를 이해해야 해요.

개인화는 사용자 데이터가 필요하지만, privacy는 데이터 사용을 제한해요. Federated learning과 differential privacy가 도움이 될 수 있지만 성능 손실이 생길 수 있어요.

Filter bubble과 bias amplification도 문제예요. AI가 사용자가 듣고 싶은 말만 계속 제공하면 다양한 관점을 차단할 수 있어요. 또한 explainability와 performance 사이의 긴장도 있습니다. 의료, 규제, 연구, 일반 사용자에게 필요한 설명 수준이 서로 다르기 때문이에요.

13. Implications for ML Systems Engineers

원문은 ML systems engineer가 AGI 개발에 중요한 위치에 있다고 말해요. AGI가 어떤 아키텍처로 오든 데이터 파이프라인, 분산 학습, 모델 최적화, 하드웨어 가속, robust deployment는 필요하기 때문이에요.

현재 프로젝트에도 바로 적용할 수 있는 교훈이 있어요.

AGI 개념	현재 실무 적용
Compound systems	단일 모델 대신 검색, 도구, 검증기를 조합해요.
Data filtering	더 많은 raw data보다 고품질 필터링과 합성 데이터에 투자해요.
RLHF와 preference learning	사용자 만족은 모델 크기만이 아니라 정렬된 행동에서 나와요.
Observability	모델 내부와 외부 도구의 실패 지점을 추적 가능하게 만들어요.

즉 AGI 기술은 현재 ML 엔지니어링 역량을 대체하지 않아요. 오히려 그 역량을 더 큰 규모와 복잡도로 확장해요.

14. Core Design Principles for AGI Systems

원문은 AGI의 경로가 불확실하다고 말해요. transformer가 RNN을 밀어낸 것처럼 예상하지 못한 전환이 또 생길 수 있어요. 하지만 시스템 원리는 계속 중요해요.

이 장에서 뽑을 수 있는 설계 원리는 다음과 같아요.

원리	설명
Modularity	구성요소를 독립적으로 교체하고 업데이트할 수 있어야 해요.
Observability	어떤 구성요소가 왜 실패했는지 볼 수 있어야 해요.
Robustness	일부 구성요소가 실패해도 전체 시스템이 무너지지 않아야 해요.
Efficient allocation	쉬운 문제와 어려운 문제에 쓰는 계산량을 다르게 해야 해요.
Alignment by design	안전 검증과 human oversight를 설계 초기에 포함해야 해요.
Heterogeneous orchestration	서로 다른 모델, 도구, 하드웨어를 조율할 수 있어야 해요.
Continuous evaluation	배포 후에도 semantic quality와 safety를 계속 평가해야 해요.

15. Fallacies and Pitfalls

원문은 AGI에 대한 흔한 오해를 경계해요.

15.1 “크기만 키우면 AGI가 자동으로 나온다”

Scaling law는 강력하지만, persistent memory, causal reasoning, embodied grounding, alignment를 자동으로 해결한다고 보장하지 않아요. 또한 비용과 에너지 문제가 커져요. 원문은 scale과 architecture innovation, efficiency, training paradigm이 균형을 이뤄야 한다고 말해요.

15.2 “Compound system은 임시방편이고 진짜 AGI가 오면 사라진다”

원문은 반대로 봐요. 생물학적 지능도 시각, 운동, 기억, 언어 등 전문 회로가 조율되는 구조예요. 생산 환경에서는 모듈성, 독립 업데이트, graceful degradation, debugging 가능성이 계속 중요해요.

15.3 “AGI에는 완전히 새로운 엔지니어링 원리가 필요하다”

AGI는 기존 엔지니어링을 폐기하는 것이 아니라 확장해요. 분산 학습, 효율적 추론, robust deployment, monitoring, fault tolerance는 더 중요해져요.

15.4 “생물학적 지능을 그대로 복제하면 된다”

뇌는 에너지 효율이 뛰어나지만, 디지털 시스템은 정확한 산술, 안정적 저장, 빠른 통신에 강해요. 따라서 생물학을 그대로 복사하기보다 sparse activation, event-driven processing, continual adaptation 같은 계산 원리를 가져오고 디지털 시스템의 장점과 결합해야 해요.

16. Summary: 이 장이 남기는 결론

원문은 narrow AI에서 AGI로 가는 전환을 알고리즘 하나의 문제가 아니라 systems integration과 orchestration의 문제로 정리해요.

핵심 결론은 다음과 같아요.

결론	의미
AGI는 시스템 문제예요.	데이터, 모델, 컴퓨트, 메모리, 안전, 운영이 함께 맞물려야 해요.
Compound AI system이 현실적인 경로예요.	전문 구성요소를 조율해 단일 모델의 한계를 줄일 수 있어요.
대안 아키텍처가 필요해요.	transformer만으로 긴 문맥, 전역 최적화, causal planning을 모두 해결하긴 어려워요.
Alignment는 지속 비용이에요.	안전 검증과 human oversight는 운영 중 계속 필요해요.
기존 ML 시스템 역량이 더 중요해져요.	분산 학습, 최적화, 하드웨어, MLOps가 AGI 인프라의 기반이에요.

복습 질문

원문은 왜 AGI를 단일 알고리즘 돌파보다 시스템 통합 문제로 보나요?
현재 AI가 AGI에 도달하지 못하게 하는 대표적인 한계 다섯 가지는 무엇인가요?
Scaling hypothesis가 강력하면서도 불충분할 수 있는 이유를 설명해보세요.
Neurosymbolic architecture에서 neural component와 symbolic component는 각각 어떤 역할을 하나요?
Embodied intelligence가 symbol grounding 문제와 어떻게 연결되나요?
Compound AI system의 다섯 가지 장점은 무엇인가요?
Self-supervised learning, synthetic data generation, self-play는 각각 데이터 병목을 어떻게 완화하나요?
MoE에서 router가 필요한 이유와 expert collapse 문제가 무엇인지 설명해보세요.
Transformer attention의 O(n^2) 문제가 긴 context 처리에서 왜 병목이 되나요?
State space model은 긴 sequence를 어떤 방식으로 더 효율적으로 처리하나요?
Energy-based model은 autoregressive model이 어려워하는 어떤 문제를 더 잘 다룰 수 있나요?
World model이 단순한 다음 token 예측과 다른 점은 무엇인가요?
RLHF의 세 단계를 순서대로 설명해보세요.
Constitutional AI는 human feedback의 어떤 병목을 줄이려 하나요?
Continual learning에서 catastrophic forgetting은 왜 중요한 문제인가요?
AGI-scale system에서 optimization, hardware, operations는 각각 어떻게 확장되어야 하나요?
Production compound system에서 orchestrator가 맡는 핵심 역할은 무엇인가요?
Semantic monitoring이 latency나 error rate monitoring만으로 대체될 수 없는 이유는 무엇인가요?
Multi-agent AGI에서 통신 프로토콜과 consensus가 전통적인 분산 시스템보다 어려운 이유는 무엇인가요?
이 장의 fallacies 중 하나를 골라, 왜 그 오해가 실무적으로 위험한지 설명해보세요.