한국언론진흥재단 전체기사

법률적으로 저작물의 복제·전송은 저작권 침해로 인정된다. AI가 뉴스 콘텐츠를 학습하는 과정에서 자연스럽게 복제나 전송이 이뤄지기 때문에 저작권 문제는 논란이 될 수밖에 없다. AI 산업 발전 과정에서 필연적으로 풀어야 할 뉴스 저작권 문제의 해법을 알아본다. 편집자 주

최근 생성 AI가 급속도로 발전하면서 뉴스 또한 AI를 통해 작성할 수 있게 됐다. AI 도입에 적극적인 언론사의 경우에는 AI를 뉴스 기사 작성의 보조적 도구로 활용하는 방법을 기자들에게 강의하기도 한다. AI는 가짜뉴스 생성에도 활용된다. 지난 5월 중국의 한 남성은 AI 기술을 활용해 가짜뉴스를 퍼뜨렸다는 이유로 경찰에 적발됐다. 이 남성은 최근 몇 년간 중국 소셜미디어에서 화제를 모은 사건의 요소들을 챗GPT에 입력해 여러 버전의 가짜뉴스를 만들어 SNS에 배포했다고 한다.¹⁾

세계 유수 언론사 뉴스 학습하는 챗GPT

생성 AI가 뉴스를 그럴듯하게 작성할 수 있는 능력을 갖게 된 것은 AI가 진짜 뉴스 콘텐츠를 학습했기 때문이다. 생성 AI는 입력된 명령어(prompt)에 맞춰 텍스트, 오디오, 이미지 등 학습된 기존 콘텐츠 데이터를 통계적 추론으로 새롭게 해석한 후 결과물을 만들어낸다. 이때 학습데이터로서 논문, 소셜미디어 대화, 웹페이지, 책, 음성, 이미지, 각종 텍스트 등이 활용될 수 있으며, 당연히 뉴스 기사 또한 학습 데이터로 활용이 가능하다.

미국 월스트리트저널 기자 출신이자 실시간 데이터 추적 플랫폼 어플라이드엑셀(AppliedXL)의 최고경영자(CEO) 프란체스코 마르코니(Francesco Marconi)는 챗GPT에 학습할 때 활용한 뉴스 출처 목록을 만들어달라고 주문했다. 챗GPT는 이 요구에 대해 로이터 통신, 뉴욕타임스, 가디언 등 유수의 언론사 명단을 제시했다. 프란체스코 마르코니는 챗GPT의 답변을 자신의 트위터에 기재했고, 언론사들은 자사의 기사를 챗GPT가 무료로 학습했다는 사실을 알고 거세게 반발했다. 이러한 이슈가 발생한 이후 챗GPT는 학습 데이터로 언론사의 뉴스 기사를 활용했냐는 질문에 대해 특정한 언론사의 뉴스 기사를 직접적으로 학습한 것은 아니며, 언론사의 특정한 기사에 대해 직접적인 정보를 제공할 수는 없다고 영리하게 답변을 수정했다.

2023%20%EC%8B%A0%EB%AC%B8%EA%B3%BC%EB%B0%A9%EC%86%A1%207%EC%9B%94.png

뉴스 기사 학습에 대한 챗GPT의 답변 <출처 – 챗GPT 화면 갈무리>

복제·전송은 명백한 저작권 침해

챗GPT가 자신의 답변 방향을 수정한 이유는 뉴스 기사를 학습 데이터로 활용하는 것이 저작권 침해 문제와 연결되기 때문이다. 뉴스 기사는 언론사 또는 기자에게 저작권이 귀속되는 어문저작물이다. 단순한 사실만 전달하는 시사 보도 뉴스의 경우 저작권법 제7조 제5호를 적용해 보호 대상에서 제외하기도 했으나, 판례는 뉴스 저작물의 보호 범위를 넓게 보아 사실을 전달하기 위한 보도 기사라도 소재의 선택과 배열, 구체적인 용어 선택, 어투, 문장 표현 등에 창작성이 있거나 작성자의 평가, 비판 등이 반영되어있는 경우에는 저작권법이 보호하는 저작물에 해당한다고 판시하고 있다(서부지방법원 2007나334판결).

저작권 침해의 태양(態樣, 모습이나 형태)으로는 복제와 전송이 있는데, AI가 학습 데이터를 습득하는 과정에서 콘텐츠의 복제 및 전송이 필연적으로 일어나게 된다. 사람이라면 눈으로 보고 머리로 기억하기 때문에 법적·물리적으로 복제와 전송으로 평가되는 행위를 거치지 아니할 수 있지만, AI는 기계·소프트웨어·프로그램이기 때문에 학습데이터의 습득 과정에서 복제와 전송이라는 행위가 발생할 수밖에 없다. 즉, AI가 뉴스 기사를 학습했다면 그 과정에서 뉴스 기사 콘텐츠의 복제 및 전송이 발생했을 것이고, 저작권자인 언론사 또는 기자의 동의가 없었다면 그에 대한 저작권 침해가 된다.

공정이용 조항과 TDM 면책 규정 도입 논의

생성 AI는 얼마나 많은 데이터를 학습했느냐에 따라서 답변의 정교함이 달라진다. AI 산업의 발전을 위해서는 데이터의 학습을 무작정 불법이라며 막을 수도 없는 노릇이다. 이에 AI가 학습하는 데이터의 처리 과정에서 필연적으로 발생하는 복제 및 전송에 대해 공정이용(fair use) 이론을 적용하자는 의견이 있다. 우리 저작권법 제35조의2에서는 일시적 복제에 대한 면책 규정을 두고 있고, 제35조의5 제1항에서는 저작물의 통상적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우에는 저작물을 이용할 수 있다는 공정이용의 일반규정이 있다. 그러나 위 조항을 AI 학습 목적의 저작물 이용에는 적용할 수 없다는 것이 대체적인 견해다. 따라서 현재 국내 저작권법의 규정상 AI의 무단 학습데이터 사용은 저작권 침해에 해당한다.

AI의 학습데이터 사용을 허용하기 위해 국내에 TDM 면책 규정을 도입하자는 의견도 있다. TDM은 텍스트·데이터 마이닝(Text and Data Mining)의 약자로서, 컴퓨팅 자원을 활용해 대량의 데이터를 분석하고 그로부터 일정한 패턴이나 구조를 추출해 의미 있는 추론을 이끌어내는 기술을 뜻한다. 우리나라에서는 2021년 TDM 면책 규정을 저작권법에 도입하자는 내용의 저작권법 전부개정법률안이 발의됐으나 저작권자들의 반대 및 보상체계 마련 미비 등으로 인해 아직까지 통과되지 못하고 있다.

미국은 연방저작권법 제107조에서 공정이용의 조건을 충족하는 경우 비평·논평·시사 보도·교수·학문·연구 등의 목적으로 저작물을 사용할 수 있다는 공정이용 조항을 두고 있으며, TDM 관련 별도의 조항은 없다. 유럽연합은 TDM 규정을 명시적으로 두고 있는데, EU 디지털 단일시장 저작권 지침에서 연구기관 및 문화유산 기관의 학술 목적 TDM(배제 불가)과 적법하게 접근할 수 있는 저작물 등에 대한 TDM(저작권자 opt-out 권리 행사²⁾ 가능) 수행 목적으로 저작물 및 데이터베이스의 복제·추출을 허용하고 있다. 싱가포르는 공정한 이용에 관한 규정이 이미 존재하지만, 추가로 TDM 규정을 신설하기도 했다. 아직까지는 뉴스 기사의 학습데이터 활용에 대해 실제로 공정이용 또는 TDM 면책 규정 조항의 적용 여부가 법원 등 공식 기관을 통해 판단된 사례는 보고되지 않고 있다.

AI의 뉴스 활용 허용과 보상에 대한 논의 필요

언론사들은 뉴스 기사의 학습데이터 활용이 명백한 저작권 침해라고 강력하게 주장하고 있다. 뉴욕타임스 등 미국 2,000여 개의 언론사가 속한 언론 단체 뉴스미디어얼라이언스(NMA, News Media Alliance)는 지난 4월 20일 ‘AI 원칙’이라는 제목의 성명서를 발표하고 생성 AI가 학습한 뉴스 콘텐츠에 대해 정당한 대가를 지급해야 한다고 주장하면서, TDM 면책 규정 도입에 대해서도 반대 의견을 표명했다. 최근 챗GPT 개발사인 오픈AI, 구글, 마이크로소프트(MS), 어도비 등은 뉴스 콘텐츠의 합법적인 사용을 위해 주요 언론사와 협의에 나섰다고 한다.³⁾

현재 진행되고 있는 협의가 성사되지 않을 경우 소송전으로 번질 수 있고, 소송이 진행되면 법원이 뉴스 기사의 학습데이터 활용이 적법한지에 대한 판단을 내릴 것이다. 현재 이뤄지고 있는 언론사와 빅테크 기업 간의 협의가 성사될지, 성사되지 않을 경우 곧바로 소송으로 이어질지, 법원이 뉴스 기사의 학습데이터 활용에 대해 공정이용 또는 TDM 규정을 적용해 저작권 침해에 대해 면책할지 귀추가 주목된다.

국내에서도 뉴스 기사의 학습 데이터 활용에 대한 언론사와 AI 개발사 간 갈등이 있었다. 지난 4월 네이버는 뉴스콘텐츠제휴 약관 개정안을 발표했는데, 개정안에는 네이버 계열사가 언론사 등의 동의 없이도 뉴스 콘텐츠를 이용할 수 있도록 하는 내용이 담겨 있었다. 네이버는 2023년 4월 30일 자정까지 약관 개정안에 대한 거부 의사를 별도로 밝히지 않는 경우 개정에 동의하는 것으로 간주한다고 통보했다. 그러나 한국신문방송편집인협회·한국기자협회·한국여성기자협회·한국인터넷신문협회 등 주요 언론 단체는 즉각 이에 대한 반대 성명을 내고 네이버의 일방적인 뉴스 콘텐츠 제휴 약관 변경을 규탄했다.

네이버는 결국 네이버가 뉴스 콘텐츠를 연구 등에 직접 활용하거나 공동 혹은 제삼자에게 위탁하는 방식으로 정보를 이용할 때 사전에 언론사의 동의를 얻도록 하는 내용으로 약관 개정안을 수정했다. 네이버는 AI를 활용한 검색 및 답변 서비스 개발에 주력하고 있는 바, 뉴스 기사를 AI 학습데이터로 활용 시 저작권 침해 이슈가 있을 수 있음을 의식해 위와 같이 뉴스 콘텐츠 제휴 약관을 개정하려고 했던 것으로 보인다. 이처럼 국내외에서 뉴스 기사의 AI 학습데이터 활용과 관련하여 분쟁이 계속되고 있다.

생성 AI의 등장은 우리에게 진짜 사실을 가려내야 하는 과제를 던져주었다. AI가 환각 현상4)에 의한 가짜 정보를 생성하는 것이 아니라 진실에 더 가까운 정보를 도출하기 위해서는 진실을 담고 있는 뉴스 기사의 학습이 필수적이다. 그러나 AI가 언론사와 기자들의 노력과 수고로 작성된 뉴스 기사를 아무런 대가 없이 무제한적으로 학습하는 것에 대해서는 의문이 있다. 언론사가 수십 년간 인적, 물적 투자를 감행해 축적한 방대한 뉴스 기사에 대한 권리를 지키고자 하는 것은 당연해 보이기 때문이다. 따라서 AI의 혁신과 연구를 위해 어디까지 뉴스 기사의 활용을 허용할지에 대해서는 다양한 이해관계자들 간의 논의와 협의가 필요하다. 또한 뉴스 기사의 AI 학습 데이터 활용에 대해 과연 보상이 필요한지, 합리적인 보상의 범위와 기준은 무엇인지에 대한 심도 있는 사회적 고민이 필요한 시점이다.

1) 윤고은, <中, 챗GPT 사용 관련 첫 구금…"AI 기술로 가짜뉴스 배포">, 연합뉴스, 2023.5.9, https://www.yna.co.kr/view/AKR20230509061900074

3) Criddle, C., Murgia, M., Thomas, D., Nicolaouand A., & Pitel, L., <AI and media companies negotiate landmark deals over news content>, Financial Tmies, 2023.6.18., https://www.ft.com/content/79eb89ce-cea2-4f27-9d87-e8e312c8601d

4) 할루시네이션(Hallucination)이라고 하며, AI가 오류가 있는 데이터를 학습하거나 라벨링(분류)이 안 된 데이터를 학습하는 등의 문제로 잘못된 정보나 허위 정보를 생성하는 것을 뜻한다.