Video thumbnail

Ep 48 LSTM 기억을 설계한 신경망 – 망각의 한계를 넘다


기억을 설계한 신경망 – LSTM, 긴 맥락의 문을 열다


1. 개요

  • 정식 명칭: Long Short-Term Memory (LSTM)
  • 발표: 1997년, Sepp Hochreiter & Jürgen Schmidhuber
  • 의미: 기존 RNN이 겪던 **장기 의존성 학습 불가능 문제(기울기 소실/폭발)**를 해결한 혁신적 순환 신경망 구조
  • 역사적 위치: 두 번째 AI 겨울 시기에도 조용히 탄생해, 훗날 음성·언어·시계열 AI 발전의 토대를 마련

2. 배경 – RNN의 망각 문제

  • RNN은 시퀀스 데이터를 처리할 수 있지만, 단계가 길어질수록 초반 정보가 소실
  • Vanishing Gradient Problem: 역전파 시 기울기가 점점 작아져 긴 의존성 학습이 불가능

3. 핵심 아이디어

  • 셀 상태(Cell State) – 정보를 오래 유지할 수 있는 ‘장기 메모리 라인’

  • 게이트(Gate) 메커니즘

    1. 입력 게이트(Input Gate) – 새 정보 저장 여부 결정
    2. 망각 게이트(Forget Gate) – 오래된 정보 삭제 여부 결정
    3. 출력 게이트(Output Gate) – 어느 정보를 현재 시점으로 내보낼지 결정
  • 선택적으로 기억·망각·출력을 제어 → 장·단기 정보 동시 관리 가능


4. 주요 성과

  • 장기 의존성 학습 가능 → 번역, 음성 인식, 감정 분석 등에서 품질 비약적 향상
  • BiLSTM, Peephole, Stacked LSTM 등 변형 구조 개발
  • Attention, Transformer 이전까지 시퀀스 처리의 사실상 표준

5. 의의

  • LSTM은 ‘무엇을 기억하고 무엇을 잊을지’ 스스로 결정하는 최초의 신경망이었다.
  • 이는 긴 맥락 이해가 필수적인 현대 AI의 길을 열었고, 트랜스포머 혁신의 발판이 됐다.

Ep 48 LSTM 기억을 설계한 신경망 – 망각의 한계를 넘다 #longshorttermmemory #rnn #vanishinggradient - Compass