AI 학습데이터 무단수집... 데이터 잠금 대신 상생 전략 시급

안재용 IT컨설팅 전문 AJ&컴퍼니 대표이사 (사진=AJ&컴퍼니 제공)
안재용 IT컨설팅 전문 AJ&컴퍼니 대표이사. (사진=AJ&컴퍼니 제공)

부산대 인공지능연구실이 나라인포테크와 공동 개발한 한국어 맞춤법 검사기가 있다. 누구나 쓸 수 있게 무료로 공개되어 있는데 얼마 전 비정상적으로 많은 사용으로 인해 감당하기 어려운 서버 비용이 청구되었다고 공지가 올라왔다.

공지에 의하면 특정 IP에서 한 달간 500만회 이상 검사기를 사용했다고 한다. AI 학습을 위한 목적으로 의심되며 앞으로 해당 서비스는 대량의 데이터 수집을 제한하겠다고 밝혔다.

AI를 개발하기 위해서는 기본적으로 많은 데이터를 학습시키는 과정이 필수다. 그 때문에 대량의 데이터를 확보하기 위해서 누구나 쉽게 접근할 수 있는 웹에서 데이터를 수집하는 일이 빈번하다.

또 얼마 전 일론 머스크는 자신이 인수한 트위터에서 대량의 데이터 수집이 발생한다며 이를 막기 위해 사용자의 하루 읽기 수에 제한을 걸겠다고 나섰다. 많은 사용자가 반발했으나 그대로 제한정책이 시행되어 결국 서비스 불편을 초래하게 되고 말았다.

트위터뿐 아니라 전 세계적으로 각종 대형 커뮤니티, 뉴스사이트 등 너나 할 것 없이 콘텐츠와 데이터를 무단으로 수집하는 행위에 대해 강력한 규제정책을 내놓기 시작하고 있으며 데이터 수집을 유료화하기도 하고 심지어 회사 간 소송 전까지 번지는 모양새다.

사용자 입장에서는 무료로 공개된 데이터이니 마음대로 가져다 써도 된다고 생각하겠지만 콘텐츠를 제공하는 회사 입장에서는 일반적인 서비스 이용 목적이 아니라, 사용자의 AI 프로그램을 개발하는 데에 큰 비용을 지불해야 하니 이를 반길 리가 만무한 일이다.

앞으로 전 세계적으로 AI 개발이 더욱 활발해질 것으로 기대되는 바 한쪽은 학습데이터를 최대한 확보하기 위해, 한쪽은 데이터를 빼앗기지 않기 위해 싸우는 전쟁에 접어들고 있는 국면이다.

데이터를 수집을 제한하는 콘텐츠 서비스 회사의 입장이 십분 이해는 되지만, AI 개발 또한 산업 발전을 위해 필요한 일이다. 무작정 걸어 잠그기보다 되도록 유료화 정책을 펼쳐 데이터를 보유한 기업의 수익창출로도 이어질 수 있도록 유도하는 것이 상생하는 전략이 아닌가 싶다.

한편 우리 과기정통부는 한국어, 이미지, 영상 등 700여 종의 AI의 학습용 26억 건을 무료로 구축해 AI 허브라는 사이트를 통해 누구나 쉽게 받을 수 있도록 개방하고 있다. 데이터 구축 과정에만 800개가 넘는 기업과 4만3000여 명의 국민이 참여했다고 한다.

앞으로는 정부가 데이터 거래시장을 활성화하는 데에 주도적 역할을 해주어 누구나 합법적으로 필요한 데이터를 확보할 수 있을 수 있으면 좋겠다는 바람이 있다. 이는 곧 기술 산업의 발전로 이어져 우리의 삶의 더욱 윤택해지는데 일조할 것이기 때문이다.

더 나아가 데이터에 국경을 허물어 우리가 해외 다른 나라들의 데이터를 쉽게 받을 수 있고 외국기업이 우리 데이터에도 쉽게 접근해 더 좋은 인공지능 기술을 개발할 수 있게 되는 날을 기대해 본다.

저작권자 © 금융경제신문 무단전재 및 재배포 금지