Ep 60 BERT Bidirectional Encoder Representations from Transformers
- Track: core
- Era: era3
- Video ID: Mp97uxUBwa4
- Playlist: PLSucJlr3QLmyvq14W_UnMsxygvbi6sNcc
- YouTube: Watch
- Thumbnail:

BERT (Bidirectional Encoder Representations from Transformers, 2018) 정리
1. 개요
- 발표: 2018년 10월, Google AI Language 팀
- 모델 타입: 트랜스포머(Transformer) 기반의 사전학습 언어 모델(Pre-trained Language Model)
- 의미: 문맥을 양방향으로 이해하는 최초의 범용 언어 모델로, 자연어 처리(NLP)의 성능 기준을 새롭게 세움
2. 핵심 아이디어
-
양방향 문맥 이해(Bidirectional Context)
- 기존 모델은 왼쪽→오른쪽 또는 오른쪽→왼쪽 한 방향만 사용
- BERT는 문장 전체를 동시에 보고, 단어의 앞뒤 관계를 함께 학습
-
사전학습(Pre-training) + 미세조정(Fine-tuning)
- 대규모 텍스트(위키백과, BookCorpus)로 먼저 일반 언어 패턴을 학습
- 이후 특정 태스크(QA, 분류, NER 등)에 맞춰 파인튜닝
-
두 가지 학습 목표
- Masked Language Model (MLM): 입력 문장에서 임의로 가린 단어를 예측
- Next Sentence Prediction (NSP): 두 문장이 연속인지 판별
3. 주요 성과
- GLUE, SQuAD, SWAG 등 11개 NLP 벤치마크에서 1위 달성
- 자연어 이해 분야에서 대규모 사전학습 → 파인튜닝 패러다임을 정착시킴
- 이후 RoBERTa, ALBERT, DistilBERT 등 수많은 변형 모델 등장
4. 한계
- 대규모 학습 비용(수백만~수천만 파라미터)
- 긴 문장(512 토큰 이상) 처리 어려움
- 텍스트 전용 → 이미지, 오디오 등 멀티모달 한계
5. 의의
- BERT는 AI가 언어를 더 깊고 정확하게 이해하는 방법을 제시하며, GPT·T5·ChatGPT 같은 거대 언어모델 시대의 문을 연 결정적 계기였다.
