Video thumbnail

Ep 60 BERT Bidirectional Encoder Representations from Transformers


BERT (Bidirectional Encoder Representations from Transformers, 2018) 정리


1. 개요

  • 발표: 2018년 10월, Google AI Language 팀
  • 모델 타입: 트랜스포머(Transformer) 기반의 사전학습 언어 모델(Pre-trained Language Model)
  • 의미: 문맥을 양방향으로 이해하는 최초의 범용 언어 모델로, 자연어 처리(NLP)의 성능 기준을 새롭게 세움

2. 핵심 아이디어

  • 양방향 문맥 이해(Bidirectional Context)

    • 기존 모델은 왼쪽→오른쪽 또는 오른쪽→왼쪽 한 방향만 사용
    • BERT는 문장 전체를 동시에 보고, 단어의 앞뒤 관계를 함께 학습
  • 사전학습(Pre-training) + 미세조정(Fine-tuning)

    • 대규모 텍스트(위키백과, BookCorpus)로 먼저 일반 언어 패턴을 학습
    • 이후 특정 태스크(QA, 분류, NER 등)에 맞춰 파인튜닝
  • 두 가지 학습 목표

    1. Masked Language Model (MLM): 입력 문장에서 임의로 가린 단어를 예측
    2. Next Sentence Prediction (NSP): 두 문장이 연속인지 판별

3. 주요 성과

  • GLUE, SQuAD, SWAG 등 11개 NLP 벤치마크에서 1위 달성
  • 자연어 이해 분야에서 대규모 사전학습 → 파인튜닝 패러다임을 정착시킴
  • 이후 RoBERTa, ALBERT, DistilBERT 등 수많은 변형 모델 등장

4. 한계

  • 대규모 학습 비용(수백만~수천만 파라미터)
  • 긴 문장(512 토큰 이상) 처리 어려움
  • 텍스트 전용 → 이미지, 오디오 등 멀티모달 한계

5. 의의

  • BERT는 AI가 언어를 더 깊고 정확하게 이해하는 방법을 제시하며, GPT·T5·ChatGPT 같은 거대 언어모델 시대의 문을 연 결정적 계기였다.

Ep 60 BERT Bidirectional Encoder Representations from Transformers - Compass