빅카인즈 기사 기반 AI 언어모델 ‘KPF-BERT’ 공개

  • 작성자 :
  • 작성일 : 2022.02.23
  • 조회수 : 5697

 

 

 

한국언론진흥재단(이사장 표완수)언론사를 위한 언어정보 자원 개발사업의 결과물인 ‘KPF-BERT’23일 공개했다. ‘KPF-BERT’는 구글에서 개발한 다국어 언어모델인 ‘BERT(Bidirectional Encoder Representations from Transformers)’를 한국언론진흥재단이 보유한 빅카인즈 기사 데이터를 활용해 학습시킨 결과물이다. 구글이 2018년 발표한 ‘BERT’는 앞의 단어들을 참조해 다음에 나올 단어를 예측하는 방식이었던 기존의 단방향 언어 모델과 달리 문장에서 예측해야 할 단어 이후의 단어들까지 양방향으로 참조해 그 의미를 더욱 잘 이해하는 방식으로 학습돼 인공지능과 자연어 처리 분야에서 획기적 기술 개선을 이루어냈다.

 

인공지능을 활용한 뉴스 추천배열, 자동작성, 요약, 댓글관리, 오탈자 및 비문 교정, 비슷한 주제 기사 묶기, 외신 자동 번역 등 언론 영역에서 인공지능 기술의 도입 및 적용 필요성이 증가하고 있지만, 언론사 자체적인 기술 개발은 여러 가지 이유로 인해 어려운 상황이다. 이를 감안해 한국언론진흥재단은 언론사를 위한 언어정보 자원 개발사업을 추진했고, 그 결과물로서 ‘KPF-BERT’를 공개한 것이다. BERT를 활용한 기존 한국어 모델들은 위키백과, 웹문서 등을 주로 학습했다. 이와 달리 ‘KPF-BERT’는 재단이 보유한 2000년부터 20218월까지 빅카인즈 기사 약4,0000만 건(20년치 8,158만 건 중 1차 정제 후 약 4,000만 건)을 학습해 언론사 및 뉴스 기사 활용 기술에 최적화되도록 개선했다. 그 결과 기존 ETRI BERT, SKTkoBERT 보다 기계 독해 등에서 성능 향상을 보여주었는데 구체적인 내용은 아래 []와 같다.

 

 

 

‘KPF-BERT’ 구축 내용과 활용을 위한 안내 내용은 한국언론진흥재단 깃허브(https://github.com/KPFBERT/)에 모두 공개돼 있다. 활용을 원하는 언론사 및 연구자, 일반 시민 모두 무상으로 이용할 수 있다. 이와 함께 한국언론진흥재단은 ‘KPF-BERT’를 활용한 기사 요약 기술, 비슷한 주제의 기사를 한데 묶어주는 클러스터링 기술도 개발해 공개했다. 두 기술 모두 ‘KPF-BERT’와 함께 한국언론진흥재단 깃허브에 공개돼 있다.

 

이번에 공개된 ‘KPF-BERT’를 활용하면 단순 맞춤법 검사를 넘어 문맥과 의미를 고려한 맞춤법 검사기, 입력하는 연속된 문장에서 해당 시점에 가장 적절한 단어를 추천하는 단어 자동완성 모델, 1차 완성된 기사에서 문장 간 또는 문장 내 어울리지 않는 표현이나 어휘는 물론 문법적 오류 검출, 뉴스 댓글 등에서의 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등의 논조 파악 모델, 협찬기사 및 정보 전달을 가장한 광고 등의 광고성 기사 검출 모델 등의 개발을 기대할 수 있다.

 

한편, 한국언론진흥재단은 기술 내용에 대해 어려움을 겪을 수 있는 언론사와 일반 시민을 위해 이번에 공개한 ‘KPF-BERT’의 의미와 기술 내용을 자세히 설명하는 설명 자료와 영상을 함께 제공한다. 해당 내용은 별첨으로 첨부한 자료를 통해 확인할 수 있다.

 

[별첨 1] KPF-BERT 설명자료 인공지능 역사와 KPF-BERT의 의미

   [별첨 2] ‘인공지능 역사에서 BERT 이해하기설명 영상

   (유튜브 링크 : https://youtu.be/Pj6563CAnKs)

 

다음
한국언론진흥재단, 언론진흥기금관리위원 위촉
이전
대선 후보 언론정책을 점검한다

이 페이지에서 제공하는 정보에 대하여 어느정도 만족하셨습니까?

관리자의 답변이 필요한 의견은 고객의 소리 게시판을 이용해 주시기 바랍니다.

설문조사 입력

서울특별시 중구 세종대로 124,대표:김효재, 사업자등록번호 : 104-82-11163,대표전화번호 : 02-2001-7114

Copyright ⓒ 2020 KOREA PRESS FOUNDATION. ALL RIGHTS RESERVED