"합법적 LLM 학습 데이터, AI 사업 리스크 줄인다"

권순우 2024.05.12 05:09 PDT

공유하기 선물하기

이 기사를 지금 공유해보세요.

이 기사에 관심이 있을 만한 사람들과 공유하고 더밀크를 추천해주세요.

Facebook

Twitter

Kakaotalk

LinkedIn

(출처 : 디자인: 김현지)

[브랜디드 콘텐츠] 비큐AI(BECU AI) 임경환 CEO
LLM 학습모델, 위키피디아 데이터로는 역부족
실시간 뉴스 기반 데이터 수요 늘어… 합법적으로 사용해야
비큐AI, 뉴스 데이터 유통 플랫폼 ‘RDPLINE’ 제공
합법적 뉴스 데이터, 글로벌 공급 확대 위해 더밀크와 공동 사업

오픈AI와 구글은 거대언어모델(LLM) 학습을 위해 AI 학습용 데이터를 무작위로 수집했다. 언론사 기사, 유튜브 영상, 팟캐스트 등을 무단 수집했다.

지난달 6일 보도된 뉴욕타임즈(NYT) 기사다. NYT는 특히 “오픈AI 직원들이 위법 행위 가능성을 사전에 인지하고 있었지만 AI 학습은 이용 목적에 부합하다고 믿었던 것처럼 보인다"고 보도했다.

실제 미 실리콘밸리 기업들은 막대한 데이터를 학습, AI 서비스에 활용하고 있는 상황. ‘데이터 헝그리'란 말이 나올 정도. 현존 데이터가 부족해서 데이터를 만들어 내는 ‘합성데이터’까지 나오는 상황이다. AI를 학습하기 위해서는 수백, 수 천 억개의 데이터가 필요하기 때문이다.

이 같은 상황에서 ‘정제된' 뉴스 데이터를 합법적으로 AI 플랫폼 기업이 활용하는 사례가 등장 주목을 받고 있다. 세계적으로 드문 사례다.

뉴스, 미디어, 법률 등 다양한 섹터의 고급 지식 데이터를 수집, 제공하고 있는 한국의 비큐AI(BECUAI, 구 비플라이소프트)가 주인공이다.

비큐AI 임경환 CEO는 “데이터의 질과 양은 인공지능의 효율성과 유효성을 결정하는 핵심 요소다. 데이터의 출처와 사용 방법에 대한 윤리적, 법적 문제가 대두되고 있다”며 “특히 실시간으로 업데이트되는 뉴스 데이터는 AI시스템의 학습 과정에 필수적인 자원"이라며 “다만 이를 사용하기 위해서는 적법한 절차를 따라야 한다"고 말했다.

임 대표는 뉴스 데이터의 가치와 데이터를 합법적으로 사용할 수 있는 방안 등에 대한 인사이트를 공유했다. 임 대표의 비큐AI는 최근 비플라이소프트에서 AI 사업을 강화하기 위해 사명을 바꾸고 해외 신사업 등을 준비하고 있다.

(출처 : 비큐AI )

LLM 학습 데이터 부족 현상은 왜 벌어지나?

"지금까지는 위키피디아 텍스트 데이터가 AI 모델 학습에 널리 사용됐다. 위키피디아의 텍스트 데이터는 온라인에서 무료로 제공되고 있어 접근성이 매우 높은 데이터다. 전 세계 100개 이상의 언어로 제공되고 있어 AI 언어모델을 세계 각국의 언어와 문화를 이해하도록 학습시키는데 중요한 역할을 했다. 더구나 무료였다.

그러나 위키피디아 데이터는 문제점이 있다. 우선 검증되지 않은 데이터다. AI 학습에 검증되지 않은 데이터를 학습자료로 사용할 경우, 잘못된 지식이나 편향된 정보를 학습하기 때문에 편향되고 부정확한 결과를 낼 수 있다. 위키피디아도 그럴싸하기 때문에 대부분 사실로 믿는데 이 것을 학습한 결과도 그럴싸 해서 그대로 믿을 가능성이 높다.

또 데이터의 구조와 형식이 일관성이 없다. 정보 편집자나 작성자에 따라 데이터의 제시 방식이나 구조가 다르다. AI가 데이터를 효과적으로 해석하는 데 어려움을 준다. 같은 주제에 대한 내용이라도 정보의 배치, 사용된 표현, 설명의 깊이가 다르다. 이는 AI의 성능 저하로 직결된다. 이 때문에 위키피디아의 데이터 사실관계나 정확성을 검증하고, 불필요한 정보를 제거하는 등 추가 자원과 시간이 필요하다."

LLM학습에 사용되는 데이터 비중 (출처 : 비큐AI )

실시간 뉴스 기반 데이터 수요 늘어… 합법적으로 사용해야

뉴스 데이터도 학습을 위해 활용되고 있다. 왜 중요한가?

“실시간으로 업데이트되는 뉴스 데이터는 AI 시스템 학습 과정에 필수적인 자원이다. 전 세계의 사건과 이슈에 대한 다양한 정보가 포함 돼 있다. 이 데이터는 AI가 현실 세계의 사건에 대해 학습하고, 사람들의 의사소통을 위한 언어사용 방식을 이해하며 시간에 따라 변화하는 사건의 전개과정이나 인간의 생각에 대한 트렌드를 학습하는 데 매우 유용하다.

그럼 기업들은 뉴스 기반 데이터를 어떻게 활용하고 있나?

“과거 AI기업들은 AI 모델 개발을 위한 양질의 데이터 수집을 위해 언론사의 온라인 데이터를 무단으로 수집해 사용했던 관행이 있었다. 오픈AI 역시 이 문제로 법적 문제에 휘말린 상태다.

이는 저작권법을 명백히 위반한 행위로, 다수의 언론사들이 콘텐츠의 저작권을 소유하고 있으며, 콘텐츠가 무단으로 사용돼 경제적 손해를 입었다고 소송을 제기하고 있다.

뉴스 콘텐츠를 사용하기 위해서는 반드시 해당 언론사의 허가를 받거나 해당 언론사와의 협약을 통해 합의된 조건으로 사용해야 한다. 단순히 법적 문제를 피하기 위해서가 아니다. 뉴스 콘텐츠 제작자의 권리를 존중하고, 노력에 대해 적절한 보상을 제공하는 것은 당연하다.

비용과 시간이 많이 들 수 있지만, 장기적으로 볼 때 법적 분쟁의 리스크를 줄일 수 있다는 장점이 있다. 또 언론사와의 건전한 협력 관계를 구축, 지속 가능한 데이터에 접근할 수 있게 된다.

현재 유럽연합(EU)에서는 AI법(AI Act) 통과로 오는 2026년부터 챗GPT 등 범용 AI 모델(General purpose AI Models)의 제공자(provider)에 대해 투명성의 의무를 강조하고 있다. 특히 EU 저작권법을 준수하는 데이터 사용 정책을 마련하고, AI 모델의 학습 과정에 사용된 콘텐츠에 대해 충분히 상세한 요약(a sufficiently detailed summary)을 공개적으로 제공할 것을 의무화하고 있다.”

대규모언어모델 학습을 위해 필요한 뉴스 데이터 저작권 사용에 대한 이슈가 계속 나오고 있다 (출처 : 비큐AI )

개별 언론사 협상 어려워... "뉴스데이터 전문 기업과 일괄 계약 장점"

AI기업은 각 국가별로 개별 언론사를 통해 협상해야 하나?

“기본적으로는 그게 맞다. 아니면 ‘비큐AI(BECUAI)’와 같은 AI전용 뉴스 데이터 전문 회사를 통해 일괄 계약을 맺는 방법이 있다. 우리는 한국언론진흥재단의 공식 뉴스 저작권 유통 대행사다. 20년 이상의 뉴스 빅데이터 처리 경험을 바탕으로, 대한민국에서 가장 큰 규모의 뉴스 미디어 데이터를 보유하고 있다.

600여 개 이상의 국내 언론사로부터 뉴스 콘텐츠를 수집하고 공급하는 동시에, 580개의 신문, 잡지, 60개의 방송, 통신사, 그리고 2600개의 인터넷 매체와 데이터 공급 제휴를 맺고 합법적으로 뉴스 데이터를 제공하고 있다.

뉴스의 원천 데이터뿐만 아니라 뉴스에 대한 데이터 라벨링 작업, 이미 라벨링 된 뉴스 데이터도 보유하고 있다. 데이터 라벨링을 위한 24시간 실시간으로 자동 라벨링 하는 첨단 시스템을 갖추고 데이터의 정확성과 신뢰도를 높이는데 힘쓰고 있다.

비큐AI의 가장 큰 강점이 바로 뉴스 데이터에 대한 합법적인 권리 확보가 가능하다는 점이다. 적법한 저작권 관리와 데이터 유통을 통해 뉴스 콘텐츠의 저작권을 보호하고, 뉴스 데이터 사용자에게 합법적으로 뉴스 콘텐츠를 제공하고 있다.”

AI전용 뉴스 데이터 전문회사와의 일관 계약은 어떤 장점이 있나?

“시간과 비용 측면에서 효율적이다. 우선 국가별 개별 언론사와 직접 협상 자체가 어렵다. 시간과 노력이 필요하다. 데이터 제공 규격과 범위, 가격 책정도 천차만별이다.다양한 법적 요구사항과 데이터 사용에 대한 규정들을 각각 확인하고 조정해야 하는 어려움도 있다.

직접 협상 자체가 리스크가 될 수 있다. 언론사가 높은 금액을 요구할 수 있기 때문이다. 여기에 언론사마다 데이터 가격이나 판매와 관련한 기술적, 법적 이해가 부족할 수 있다. 협상 과정에서 오해나 불필요한 지연이 있을 수 있다.

이런 문제들 때문에 ‘AI향 뉴스 데이터 전문 회사’를 통해 원스톱으로 계약하는 방법이 훨씬 효과적일 수 있다. 대행사는 여러 언론사 뉴스 콘텐츠 유통에 필요한 각종 조건(뉴스 콘텐츠의 사용 범위, 규격, 한도, 가격조건 등)에 따른 공급 가격을 이미 보유하고 있다. 또 언론사와의 협상 경험이 풍부하고, 법적인 문제나 데이터 관리 방법에 대한 전문 지식을 갖추고 있다는 점도 장점이다.”

비큐AI는 국내 다수의 매체와 데이터 공급 제휴를 통해 합법적 데이터를 제공하고 있다. (출처 : 비큐AI )

비큐AI, 뉴스 데이터 유통 플랫폼 ‘RDPLINE’ 제공... 삼성, LG, SKT등 고객사

비큐AI는 어떤 플랫폼을 통해 뉴스 데이터를 제공하나?

“지난해 새로운 뉴스 데이터 유통 플랫폼인 ‘RDPLINE(Real-time Data PipeLine)’을 내놨다. 인공지능(AI) 기업에 최적화된 뉴스 데이터 유통 플랫폼이다. 생성AI 모델의 훈련을 위한 고품질의 원천, 정제된 데이터를 제공하고, 실시간 뉴스 데이터 파이프라인도 함께 제공하는 서비스다.

700여 개의 다양한 매체에서 수집된 데이터를 쉽고 효율적으로 구매하고 활용할 수 있도록 설계됐다. 비큐AI가 20년간 뉴스 빅데이터 처리 경험에 기반을 둔 서비스다. 특정 매체, 주제(카테고리), 기간, 데이터 규격 등을 조건으로 뉴스 데이터를 확인하고, 필요한 데이터 세트를 선택해 구매가 가능하다.

RDPLINE은 과거부터 최신까지의 뉴스 아카이브를 보유하고 있어 기업이 필요로 하는 뉴스 데이터를 빠르게 찾아 공급할 수 있다는 장점도 있다. 다양성과 일관성을 갖춘 데이터를 활용할 수 있다는 점도 장점이다. AI 모델이 더욱 정교하고 균형 잡힌 학습을 진행할 수 있다.”

어떤 기업들이 사용하고 있나?

“삼성전자, LG전자, SKT, KT 등 국내 주요 대기업들의 LLM 학습에 필요한 뉴스 데이터 공급 계약을 체결했다. 특히 SKT의 에이닷과 같은 AI 서비스에는 뉴스 데이터 파이프라인을 통해 실시간 뉴스를 공급하고 있다.

한국지능정보사회진흥원(NIA) 등 정부기관에서 추진한 인공지능 학습용 데이터 구축 사업 등에도 참여했다. 뉴스 데이터 수집, 정제, 가공(문서 요약, 낚시성 기사 탐지 등), 이용 등 뉴스 데이터 유통과 관련한 전체 프로세스에 필요한 핵심 기반 기술을 확보하고 있다.”

AI향 글로벌 뉴스 데이터 확보는 가능한가?

“국가별 주요 언론 매체와 ‘RDPLine 얼라이언스’를 통해 주요 국가의 AI 학습 및 서비스용 실시간 뉴스 데이터를 통합 플랫폼을 통해 원스톱으로 제공할 수 있도록 영역을 확장하고 있다. 이를 기반으로 AI서비스를 제공하는 빅테크 기업들이 각국의 뉴스 데이터에 합법적으로 접근할 수 있게 될 것으로 기대하고 있다.

이를 위해서 실리콘밸리에 본사를 둔 미디어 ‘더밀크’와 양해각서(MOU) 및 본 계약을 체결하고, 글로벌 뉴스 데이터 파이프라인 확장 계획을 실행에 옮기고 있다.”

주주총회에서 발언하는 임경환 대표. (출처 : 비큐AI)

비큐AI는?

비큐AI(BECUAI)는 1988년 설립 이후 20년 동안 국내 3000여개의 미디어 데이터를 연결하는 서비스를 제공하며, 독자적인 빅데이터 기술을 확보하면서 성장해 왔다. 개별 데이터 세트의 품질을 높은 수준으로 고도화하고, 데이터 중심 인공지능 도입을 통해 경쟁 패러다임의 변화를 시도하는 기업들을 효과적이고 효율적으로 지원하는 기술과 데이터의 인터페이스를 연구하고 있다. 'Data Pre-Processing' 단계부터 'End-Point'인 뉴스 데이터 공급과 모니터링 서비스까지 다양한 솔루션 및 서비스를 제공, 글로벌 MCP(Multi Contents Provider)로의 확장을 추구하고 있다. 지난달 비플라이소프트에서 사명을 ‘비큐AI’로 변경하고, 미디어 분야의 빅데이터와 관련 기술력, 노하우를 바탕으로 AI 분야 핵심 기업으로의 도약을 시작했다.

👉문의: https://becuai.com