우리 회사 AI의 데이터 학습, 저작권법 위반일까?
*본 콘텐츠는 SOVAC Together 콘텐츠 파트너 법무법인 미션의 전문가 칼럼을 담고 있습니다.

1. 서론
지난 2025년 1월, 지상파3사(KBS·MBC·SBS)(이하 “방송사”)는 자사 뉴스 등을 무단으로 생성형 AI에 활용했다며 네이버 주식회사 및 네이버클라우드 주식회사(이하 “네이버”)를 상대로 저작권 침해중지 등 청구의 소를 제기하였으며, 현재 1심(서울중앙지방법원 2025가합5105)이 계속 중입니다.
방송사 측은 네이버가 대규모 언어모델(LLM) 개발시 대량의 뉴스 콘텐츠를 학습하여 저작권을 침해했다고 주장하는 한편, 네이버는 “네이버 뉴스 콘텐츠 제휴 약관에 기반해 뉴스 콘텐츠를 사용할 포괄적 권한이 있다”고 반박하였습니다. (관련 기사)
인공지능 학습에 사용되는 데이터에 관한 쟁점은 대형 IT 기업만의 문제가 아니며, 인공지능을 직접 개발하거나 기존 거대언어모델의 인터페이스를 연동하여 서비스를 제공하는 모든 기업에 직결되는 사안입니다.
우리 저작권법은 개별적인 제한 사유에 해당하지 않더라도 기술 변화에 유연하게 대응할 수 있도록 ‘공정이용 제도(저작권법 제35조의5)’를 두고 있습니다. 이 조항은 저작자의 정당한 이익을 부당하게 해치지 않는 범위 내에서 저작물 이용을 허용하는 법적 근거가 되지만, 그동안은 추상적인 성격 탓에 실무 현장에서 그 적용 여부를 명확히 판단하기 어려운 측면이 있었습니다.
2026년 2월, 문화체육관광부와 한국저작권위원회는 “생성형 인공지능의 저작물 학습에 대한 저작권법상 “공정이용” 안내서”(이하 ‘공정이용 안내서’)를 발간하였습니다. 공정이용 안내서는 향후 발생할 수 있는 저작권 분쟁의 핵심 판단 근거이자, 기업이 저작권 관련 리스크를 스스로 관리할 수 있는 실질적인 가이드라인이 될 것입니다.
이번 칼럼에서는 공정이용 안내서를 바탕으로, 법적 규제의 범위 내에서 AI 서비스를 제공하기 위하여 확인해야 할 기준을 살펴보겠습니다.
2. 주요 개념
- GAI(Generative Artificial Intelligence, 생성형 AI) 학습: 생성형 AI 모델을 구현하기 위해 저작물이 포함된 데이터를 수집하고, 이를 전처리(preprocessing)한 데이터를 이용해 모델이 통계적 규칙·패턴을 학습하여 내부 매개변수(parameter: 어떤 시스템이나 함수의 특성을 나타내는 변수)로 고정시키는 일련의 과정
- 공정이용 제도(Fair Use): 교육 목적 복제, 비영리 공연 등 특정 요건에 한하여 개별적으로 적용되는 것이 아니고, 기술환경이나 저작물 이용 환경 변화 등 다양한 상황에 포괄적으로 적용할 수 있는 저작재산권 제한 규정
저작권법 제35조의5(저작물의 공정한 이용) ① 제23조부터 제35조의4까지, 제101조의3부터 제101조의5까지의 경우 외에 저작물의 일반적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우에는 저작물을 이용할 수 있다. ② 저작물 이용 행위가 제1항에 해당하는지를 판단할 때에는 다음 각 호의 사항 등을 고려하여야 한다. 1. 이용의 목적 및 성격 2. 저작물의 종류 및 용도 3. 이용된 부분이 저작물 전체에서 차지하는 비중과 그 중요성 4. 저작물의 이용이 그 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향 |
- TDM 예외: 텍스트, 데이터마이닝을 위하여 개별적으로 적용할 수 있는 저작재산권 제한 규정을 말하며, TDM 예외에 대한 명시적인 요건을 충족하면 학습이 허용되는 것으로서 EU, 일본 등에서 도입하였음
(이상 한국저작권위원회의 ‘생성형 인공지능의 저작물 학습에 대한 저작권법상 “공정이용” 안내서’에서 인용)
GAI 학습의 각 과정에서 이루어지는 저작물의 저장은 저장매체의 형태를 불문하고 저작권법상 복제에 해당하며, 각 저작물에 대한 권리자의 이용허락을 받지 않고 저작물을 이용하는 경우 저작재산권 제한 사유에 해당하는 등 특별한 사정이 없는 한 저작권 침해에 따른 법적 책임을 부담할 수 있습니다.
그렇다면 GAI 학습을 위한 저작물의 이용이 저작권법상 공정이용에 해당하는지 여부를 어떻게 판단할 수 있을까요?
3. AI 학습의 ‘공정이용’을 판단하는 4가지 기준
가. 제1요소: 이용의 목적 및 성격
첫 번째 기준으로는 1) 변형적 이용인지, 2) 영리 목적인지, 그리고 3) 저작물 이용 경위 또는 방법은 무엇인지 등을 고려합니다.
1) 변형적 이용
‘변형적 이용’이란 그 이용이 단순히 이용되는 저작물을 대체하는 것인지 아니면 원저작물을 새로운 표현, 의미, 메시지로 변경하여 새로운 가치를 부여하는 것인지를 판단하는 기준으로서, 예컨대 다음과 같은 경우라면 제1요소 판단에 유리하게 고려될 수 있습니다.
- 학습에 이용된 저작물과 관계없는 목적 또는 성격의 결과물을 생성하는 모델을 학습시키는 경우
- 학습된 저작물의 전부 또는 일부 표현이 GAI 결과물에 반영되지 않으며, 결과물이 다른 용도로 활용되는 경우
- 학습에 이용된 저작물과 동일하거나 유사한 결과물의 생성 명령을 거절하는 기술적 조치 등의 노력을 한 경우
- 현저하게 공익 증대에 기여한 경우로서, GAI 모델이 새로운 가치 또는 용도를 창출하고, 그 결과물이 기존 저작물 시장이나 권리자의 경제적 이익에 대한 침해가 존재하지 않거나 거의 존재하지 않는 경우
2) 영리 목적
영리 목적이란 간접적으로 경제적 이익이나 기업의 영업 활동에 기여할 목적이 있는 경우까지 포함하며, 저작물 이용의 목적이 영리적이라면 권리자의 경제적 이익을 잠식할 가능성이 크기 때문에 제1요소 판단에 불리할 수 있습니다.
대부분의 GAI 학습은 영리·상업적 목적을 전제로 이루어지는 경우가 많지만 변형성이 인정된다면 제1요소에서 유리한 것으로 판단될 가능성은 존재합니다. 대학, 공공기관, 비영리단체들이 수행하는 GAI 학습은 비영리 목적으로 인정될 가능성이 높고, 비영리 목적 연구단체가 영리 목적 기업의 지원을 받아 그 기업의 영업과 관련된 학습을 하는 경우 영리 목적으로 인정될 수도 있습니다. 상업적 서비스 개발을 위한 GAI 학습을 한 경우, 저작물의 이용이 권리자의 경제적 이익과 직접적으로 충돌한다면 영리 목적으로 인정될 가능성이 높습니다.
3) 저작물 이용의 경위 또는 방법 등
이용된 저작물에 대한 불법복제방지조치 이외에도, 해당 저작물이 불법복제물인지 또는 해당 저작물에 불법적으로 접근하였는지가 판단에 고려될 수 있습니다. 다음과 같은 경우 제1요소 판단에 불리하게 작용할 수 있습니다.
- 접근은 가능하나 GAI 학습이 허용되지 않은 저작물을 학습한 경우
- 접근이 제한된 저작물(로그인 필요, 유료 제공 저작물 등)을 무단 수집한 경우
- 기술적 보호조치를 우회하는 행위를 한 경우
- 접근 제한이 있거나 로봇배제 표준(robots.txt)으로 수집이 금지된 저작물을 무단 수집하는 경우
- 이용약관을 어기거나 허락되지 않은 방식으로 접근하는 경우
나. 제2요소: 저작물의 종류 및 용도
두 번째 기준은 ‘어떤 데이터를 학습했는가?’입니다. 사실 전달을 목적으로 하는 뉴스나 기능적 역할을 수행하는 컴퓨터 코드 같은 ‘사실·기능적 저작물’은 상대적으로 허용 폭이 넓습니다.
반면, 소설, 음악, 미술 등 창작성이 높은 ‘문학·예술적 저작물’을 학습할수록 불리합니다. 또한 공표된 저작물보다 미공표된 저작물이나 제한된 접근권한 하에 제공되는 저작물(구독 서비스, 유료 데이터베이스 등)을 이용한 경우에는 공정이용 판단에 불리하게 작용합니다.
다. 제3요소: 저작물의 비중(양적 측면)과 그 중요성(질적 측면)
세 번째 기준은 “데이터를 얼마나 복제했는가?”입니다.
저작물의 양적 측면에서 타인의 저작물을 복제한 경우, 제3요소 판단 시에 불리하게 고려될 수 있습니다. 다만 저작물 전체가 복제되었더라도 이용 목적상 불가피하거나 필요한 범위 내에서 이용된 경우 유리하게 고려될 여지가 있습니다.
특히, GAI 학습을 위해서 저작물 전체가 이용되어 제3요소 자체만으로는 불리하게 작용하지만, 저작물의 이용이 기술적으로 불가피하고 필수적인 경우 다른 고려요소에 따라 달리 판단될 수 있습니다. 다만 이용 과정에서 저작물의 핵심적 표현이 직접적으로 재현되거나, 결과물이 원저작물과 실질적으로 동일하거나 대체 가능한 형태로 제공되었고 이 부분이 제1요소 판단에서 공정한 것으로 이용된 목적 및 성격에 합리적으로 필요한 범위를 양적·질적으로 초과한 경우 유리하게 인정되기 어렵습니다.
라. 제4요소: 저작물 시장 또는 가치에 미치는 영향
마지막이자 가장 강력한 기준은 “기존 저작물의 수익을 가로채는가?”입니다. 이는 저작물의 이용이 기존 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향을 판단하는 기준입니다. 저작물 판매 손해 또는 경제적 손해, 이용허락 기회 등의 세부적 요소를 고려할 수 있으며 다음과 같은 경우 유리하게 작용할 수 있습니다.
- 저작물의 판매 손해 또는 경제적 손해가 없는 경우
- 학습을 통해 생성된 결과물이 원저작물의 경제적 가치나 시장 수요를 대체하거나 그 시장 가치를 훼손할 우려가 없거나 적은 경우
- 생성된 결과물이 원저작물의 표현을 직접적으로 재현하지 않으면서 독립된 효용을 가지는 경우
- 학습을 통해 원저작물을 직접 제공하거나 재현하지 않으며 영리적 목적이라 하더라도 그 이용이 원저작물의 시장 수요에 직접적 영향을 미치지 않는 경우
- 이용허락 기회를 명백히 훼손하지 않아 시장 대체 가능성이 없거나 약화시킬 경우
- 학습의 목적이 비상업적·공익적 영역에 국한되고, 해당 이용이 권리자의 합리적 시장 진입 가능성이나 경제적 수익 기회를 실질적으로 침해하지 않는 경우
- 저작물의 이용허락 기회에 영향을 미치지 않는 방식으로 이용이 이루어지며, 시장 대체 가능성이나 저작물의 통상적 이용 영역을 침해하지 않는다고 평가되는 경우
4. 마치며
공정이용 안내서는 향후 발생할 수 있는 저작권 침해 분쟁에 중요한 판단 기초가 되는 가이드라인임은 분명합니다. 가이드라인을 면밀히 검토하여, 리스크를 해소하는 구체적인 실행 전략을 마련해야 할 시점입니다.
작성 : 김성은 인턴(성균관대학교 법학전문대학원)
검수 : 신재윤 변호사(법무법인 미션)