주요 7개 AI 대규모 모델 실제 테스트 결과, 프라이버시 노출이 일반적인 문제로 나타나

2025.01.17

주요 7개 AI 대규모 모델 실제 테스트 결과, 프라이버시 노출이 일반적인 문제로 나타나

주요 모델 제조사들이 적극적으로 응답하여 제품 설계와 개인정보 정책을 자발적으로 개선하고, 보다 개방적이고 투명한 태도로 사용자에게 데이터의 출처와 처리 과정을 명확히 설명해 주기를 기대합니다. 이를 통해 사용자들이 대규모 모델 기술을 안심하고 이용할 수 있기를 바랍니다.

2025.01.17 - 09:56:07

Web3 심층 보도에 집중하고 흐름을 통찰

저자: 사원,TechFlow

이미지 출처: 무계AI 생성

AI 시대에 사용자가 입력하는 정보는 더 이상 개인적 프라이버시에 국한되지 않으며, 대규모 모델의 발전을 위한 '발판'이 되고 있다.

"PPT 좀 만들어 줘", "설날 포스터 한 버전 만들어 줘", "문서 내용 요약해 줘" — 대규모 모델이 각광받기 시작하면서 AI 도구를 활용해 업무 효율을 높이는 것은 이제 일반 직장인들의 일상이 됐다. 심지어 일부는 AI로 배달 음식 주문이나 호텔 예약까지 하게 됐다.

그러나 이러한 데이터 수집 및 사용 방식은 막대한 프라이버시 위험도 동반한다. 많은 사용자들이 디지털 기술과 도구를 사용할 때 발생하는 핵심 문제 중 하나인 투명성 부족을 간과하고 있다. 즉, 이들 AI 도구가 데이터를 어떻게 수집하고 처리하며 저장하는지 알지 못하며, 데이터가 오용되거나 유출되는지 여부도 확신할 수 없다.

올해 3월 OpenAI는 ChatGPT에 결함이 있어 일부 사용자의 채팅 기록이 유출됐음을 인정했다. 이 사건은 대중의 대규모 모델 데이터 보안 및 개인정보 보호에 대한 우려를 불러일으켰다. ChatGPT의 데이터 유출 외에도 Meta의 AI 모델 역시 저작권 침해 논란에 휩싸였다. 올해 4월 미국 작가 및 예술가 단체들은 Meta의 AI 모델이 훈련 과정에서 그들의 작품을 무단으로 사용해 저작권을 침해했다고 주장했다.

국내에서도 유사한 사건이 발생했다. 최근 아이치이(iQiyi)와 소위 '대규모 모델 6강 중 1개'로 불리는 시위테크(MiniMax)가 저작권 분쟁으로 주목을 받았다. 아이치이는 해나라AI(Hailuo AI)가 허가 없이 자사 저작물 자료를 사용해 모델을 훈련시켰다고 주장하며, 이는 중국 최초의 영상 플랫폼이 AI 영상 대규모 모델을 상대로 제기한 침해 소송이다.

이러한 사건들은 대규모 모델의 훈련 데이터 출처 및 저작권 문제에 대한 외부의 관심을 촉발했으며, AI 기술의 발전은 반드시 사용자 프라이버시 보호를 기반으로 해야 함을 시사한다.

현재 중국산 대규모 모델의 정보 공개 투명성 현황을 파악하기 위해 TechFlow는 두바오, 원신이옌, Kimi, 텐센트 혼위안, 스파크 대규모 모델, 통의천문, 쿠아이쇼우 커링 등 시장에서 주류를 이루는 7종의 대규모 모델 제품을 샘플로 선정하여, 개인정보 보호정책 및 이용 약관 평가, 제품 기능 설계 체험 등의 방법으로 실측을 진행했다. 그 결과 다수 제품이 이 분야에서 미흡한 성과를 보였으며, 사용자 데이터와 AI 제품 사이의 민감한 관계를 명확히 확인할 수 있었다.

01. 철회권은 형식에 불과하다

먼저 TechFlow는 로그인 페이지에서 명확하게 확인할 수 있었는데, 7종의 중국산 대규모 모델 제품 모두 인터넷 앱의 '표준 구성'인 이용 약관과 개인정보 보호정책을 따르고 있으며, 개인정보 보호정책 본문 내 별도의 장을 마련해 사용자에게 개인정보 수집 및 이용 방법을 설명하고 있다.

이들 제품의 설명은 기본적으로 동일하다. "서비스 경험의 최적화 및 개선을 위해 사용자가 출력 결과에 대해 제공한 피드백 및 사용 중 발생한 문제를 종합적으로 고려해 서비스를 개선할 수 있다. 보안 암호화 기술 처리 및 철저한 비식별화 조건 하에서, 사용자가 AI에 입력한 데이터, 지시사항, AI가 생성한 응답, 제품 방문 및 사용 상황 등을 분석하여 모델 훈련에 활용할 수 있다."

사실상 사용자 데이터를 활용해 제품을 개선하고, 이를 통해 더욱 나은 제품을 사용자에게 제공하는 것은 일종의 긍정적 순환이지만, 사용자들이 관심 있는 핵심 질문은 바로 자신의 데이터가 AI 훈련에 '제공'되는 것을 거부하거나 철회할 권리를 가질 수 있느냐는 점이다.

TechFlow가 이 7종의 AI 제품들을 검토하고 실측한 결과, 개인정보 보호 조항에서 '제품이 개인정보 수집 범위를 변경하거나 권한을 철회하는 것'을 언급한 곳은 두바오, 쉬페이, 통의천문, 커링 네 곳뿐이었다.

두바오의 경우 주로 음성 정보의 권한 철회에 초점을 맞추고 있다. 정책에 따르면 "음성 정보를 모델 훈련 및 최적화에 사용하지 않기를 원하시는 경우, [설정] - [계정 설정] - [음성 서비스 개선]을 꺼서 권한을 철회할 수 있습니다." 그러나 기타 정보의 경우 공개된 연락처를 통해 공식 채널에 문의해야 데이터를 모델 훈련 및 최적화에 사용하는 것을 요구 철회할 수 있다.

이미지 출처/(두바오)

실제 운영 과정에서 음성 서비스 권한을 끄는 것은 어렵지 않지만, 다른 정보 사용에 대한 철회 요청은 TechFlow가 두바오 공식 채널에 연락했음에도 불구하고 계속해서 답변을 받지 못했다.

이미지 출처/(두바오)

통의천문은 두바오와 유사하게 개인이 조작할 수 있는 부분은 음성 서비스 권한 철회만이며, 기타 정보의 경우 역시 공개된 연락처를 통해 공식 채널에 문의해야 개인정보 수집 및 처리 범위를 변경하거나 권한을 철회할 수 있다.

이미지 출처/(통의천문)

커링은 영상 및 이미지 생성 플랫폼으로 얼굴 정보 사용에 대해 특별히 강조하며 "귀하의 얼굴 화소 정보를 기타 용도로 사용하거나 제3자와 공유하지 않습니다."라고 밝혔다. 하지만 권한 취소를 원할 경우 공식 채널에 메일을 보내야 한다.

이미지 출처/(커링)

두바오, 통의천문, 커링에 비해 쉬페이 스파크는 더욱 까다로운 조건을 제시하는데, 조항에 따르면 사용자가 개인정보 수집 범위를 변경하거나 철회하고자 할 경우 계정 탈퇴를 통해서만 가능하다.

이미지 출처/(쉬페이 스파크)

주목할 점은 텐센트 웬바오가 조항에 정보 권한 변경 방법을 언급하지 않았지만, 앱 내에서 '음성 기능 개선 계획' 스위치를 확인할 수 있다는 것이다.

이미지 출처/(텐센트 웬바오)

Kimi는 개인정보 보호 조항에서 제3자와 음성 지문 정보를 공유하는 것을 철회할 수 있다고 명시하고 있으며, 앱 내에서 해당 조작이 가능하다고 하지만 TechFlow가 오랫동안 탐색한 끝에 조정 입구를 찾지 못했다. 나머지 문자 정보 관련 조항 역시 찾아볼 수 없었다.

이미지 출처/(Kimi 개인정보 보호 조항)

사실 몇몇 주요 대규모 모델 애플리케이션을 살펴보면, 각사는 사용자의 음성 지문 관리에 비교적 큰 관심을 보이고 있으며, 두바오, 통의천문 등은 자체 조작을 통해 권한을 취소할 수 있고, 위치정보, 카메라, 마이크로폰 등 특정 상호작용 상황에서의 기본 권한 역시 직접 꺼줄 수 있다. 하지만 데이터를 모델 훈련에 '제공'한 것에 대한 철회는 어느 기업도 원활하게 지원하지 않고 있다.

흥미롭게도 해외 대규모 모델들도 '사용자 데이터의 AI 훈련 참여 철회 메커니즘'에서 유사한 접근을 하고 있다. 구글 Gemini 관련 조항은 "향후 대화 내용을 검토하거나 Google의 머신러닝 기술 개선에 사용하지 않기를 원한다면, Gemini 앱 활동 기록을 끄십시오."라고 규정한다.

또한 Gemini는 삭제한 앱 활동 기록의 경우, 이미 인공 검토자에 의해 검토되거나 주석이 달린 대화 내용(언어, 기기 유형, 위치 정보 또는 피드백 포함)은 별도로 보관되며 Google 계정과 연결되지 않아 최대 3년간 보관될 수 있다고 언급했다.

이미지 출처/(Gemini 조항)

ChatGPT의 규칙은 다소 모호한데, 사용자는 개인 데이터 처리 제한 권리를 가질 수 있다고 하지만 실제 사용에서는 Plus 사용자가 데이터를 훈련에 사용하지 않도록 직접 설정할 수 있으나, 무료 사용자의 경우 데이터가 기본적으로 수집되어 훈련에 사용되며, 선택적으로 참여를 원하지 않을 경우 공식 채널에 메일을 보내야 한다.

이미지 출처/(ChatGPT 조항)

사실 이들 대규모 모델 제품의 조항을 보면, 사용자 입력 정보 수집은 이미 일종의 공감대가 된 것으로 보인다. 그러나 음성 지문, 얼굴 등 더욱 민감한 생체 정보의 경우 일부 멀티모달 플랫폼에서만 약간의 언급이 있을 뿐이다.

그러나 이것은 경험이 부족해서가 아니다. 특히 인터넷 대기업의 경우 더욱 그렇다. 예를 들어 위챗의 개인정보 보호 조항에는 각 항목 데이터 수집의 구체적인 상황, 목적, 범위를 상세히 열거하고 있으며, 심지어 "사용자의 채팅 기록을 수집하지 않는다"고 명확히 약속한다. 더우인도 마찬가지로, 사용자가 더우인에 업로드하는 정보는 개인정보 보호 조항에 거의 모두 사용 방식, 목적 등을 명확히 기재하고 있다.

이미지 출처/(더우인 개인정보 보호 조항)

인터넷 소셜 시대에 엄격히 통제되었던 데이터 획득 행위가, 오늘날 AI 시대에는 일상이 되어버렸다. 사용자가 입력한 정보는 이제 대규모 모델 업체들이 '훈련 자료'라는 명분 아래 자유롭게 수집하고 있으며, 사용자 데이터는 더 이상 철저히 다뤄야 할 개인 프라이버시가 아니라 모델 발전의 '발판'이 되고 있다.

사용자 데이터 외에도 대규모 모델 입장에서 훈련 자료의 투명성 또한 매우 중요하다. 이러한 자료가 합리하고 합법적인지, 침해가 되는지, 사용자에게 잠재적 위험이 있는지는 모두 중요한 문제다. 우리는 이러한 의문을 가지고 7종의 대규모 모델 제품을 심층적으로 분석하고 평가했는데, 그 결과 매우 놀라웠다.

02. 훈련 자료 '제공'의 잠재적 위험

대규모 모델의 훈련은 컴퓨팅 파워 외에도 고품질의 자료가 더욱 중요하다. 그러나 이러한 자료는 종종 저작권 보호를 받는 텍스트, 이미지, 영상 등 다양한 형태의 작품을 포함하며, 허가 없이 사용하는 것은 명백히 침해행위에 해당한다.

TechFlow의 실측 결과, 7종의 대규모 모델 제품 모두 계약에서 대규모 모델 훈련 데이터의 구체적인 출처를 언급하지 않았으며, 저작권 데이터를 공개하지도 않았다.

대다수가 훈련 자료를 공개하지 않는 이유는 간단하다. 첫째, 데이터 사용 부주의로 인해 쉽게 저작권 분쟁이 발생할 수 있으며, 현재 AI 기업이 저작권이 있는 콘텐츠를 훈련 자료로 사용하는 것이 적법한지에 대한 명확한 규정이 없기 때문이다. 둘째, 기업 간 경쟁과 관련이 있는데, 기업이 훈련 자료를 공개하면 마치 식품 회사가 원재료를 경쟁사에 알려주는 것과 같아, 경쟁사가 이를 신속히 모방하여 제품 수준을 높일 수 있기 때문이다.

특히 대부분의 모델 정책 및 계약에는 사용자와 대규모 모델의 상호작용 후 얻은 정보를 모델 및 서비스 최적화, 관련 연구, 브랜드 홍보 및 마케팅, 사용자 조사 등에 활용한다고 명시돼 있다.

솔직히 말해, 사용자 데이터의 품질이 불균형하고, 시나리오의 깊이가 부족하며, 한계 효과가 존재하는 여러 가지 이유로 인해 사용자 데이터는 모델 능력을 크게 향상시키기 어렵고, 오히려 추가적인 데이터 정제 비용을 초래할 수도 있다. 그럼에도 불구하고 사용자 데이터의 가치는 여전히 존재한다. 다만 이제는 모델 역량 향상의 핵심 요소가 아니라 기업이 새로운 수익 창출 경로를 얻는 수단이 됐다. 사용자 대화를 분석함으로써 기업은 사용자 행동을 이해하고 수익 창출 시나리오를 발굴하며 상업 기능을 맞춤화하고, 심지어 광고주와 정보를 공유할 수도 있다. 이 모든 것은 대규모 모델 제품의 사용 규칙과 정확히 부합한다.

다만 주의할 점은 실시간 처리 과정에서 생성된 데이터가 클라우드로 업로드되어 처리되며, 동시에 클라우드에 저장된다는 점이다. 대부분의 대규모 모델은 개인정보 보호 약관에서 업계 동등 이상의 암호화 기술, 익명화 처리 및 기타 가능한 수단을 통해 개인정보를 보호한다고 명시하지만, 이러한 조치의 실제 효과에 대해서는 여전히 우려가 있다.

예를 들어, 사용자가 입력한 내용을 데이터 세트로 사용할 경우, 시간이 지나 다른 사람이 대규모 모델에 관련 내용을 질문할 때 정보 유출 위험이 발생할 수 있다. 또한 클라우드 또는 제품이 공격을 받을 경우 연관성 또는 분석 기술을 통해 원본 정보를 복원할 가능성도 있어 잠재적 위험이 존재한다.

유럽 데이터 보호위원회(EDPB)는 최근 인공지능 모델이 개인정보를 처리할 때의 데이터 보호 지침을 발표했다. 이 지침은 AI 모델의 익명성이 단순한 선언으로 확립되는 것이 아니라, 엄격한 기술 검증과 지속적인 감시 조치를 통해 보장되어야 한다고 명확히 지적한다. 또한 기업은 데이터 처리 활동의 필요성을 입증할 뿐만 아니라, 처리 과정에서 개인 프라이버시에 가장 적은 침해를 주는 방법을 채택했음을 입증해야 한다고 강조한다.

따라서 대규모 모델 기업이 '모델 성능 향상'이라는 명목으로 데이터를 수집할 때 우리는 더욱 경계해야 한다. 이것이 정말 모델 발전을 위한 필수 조건인지, 아니면 기업의 상업적 목적을 위한 사용자 데이터 남용인지 말이다.

03. 데이터 보안의 모호한 영역

일반적인 대규모 모델 애플리케이션 외에도, 에이전트(Agent), 엣지 AI(端侧AI)의 적용은 프라이버시 유출 위험을 더욱 복잡하게 만든다.

채팅봇 등 AI 도구와 비교할 때, 에이전트 및 엣지 AI는 사용 시 더 상세하고 가치 있는 개인정보를 수집해야 한다. 기존 스마트폰이 수집하는 정보는 주로 사용자 기기 및 앱 정보, 로그 정보, 시스템 권한 정보 등이었지만, 엣지 AI 시나리오와 현재 주로 화면 읽기 및 녹화 기술에 기반한 방식에서는 위 정보 외에도 터미널 에이전트가 종종 녹화 파일 자체를 획득할 수 있으며, 모델 분석을 통해 신원, 위치, 결제 등 다양한 민감 정보를 추출할 수 있다.

예를 들어 영榮(榮耀)이 이전에 발표회에서 시연한 배달 음식 주문 시나리오는 위치, 결제, 선호도 등의 정보가 AI 애플리케이션에 의해 조용히 읽혀지고 기록됨으로써 개인 프라이버시 유출 위험을 증가시킨다.

"텐센트 연구소"가 이전에 분석한 바에 따르면, 모바일 인터넷 생태계에서 소비자에게 직접 서비스를 제공하는 앱은 일반적으로 데이터 통제자로 간주되며, 전자상거래, 소셜, 교통 등 서비스 시나리오에서 상응하는 프라이버시 보호 및 데이터 보안 책임을 진다. 그러나 엣지 AI 에이전트가 앱의 서비스 기능을 기반으로 특정 작업을 수행할 때 터미널 제조사와 앱 서비스 제공자 간의 데이터 보안 책임 경계가 모호해진다.

업체들은 종종 더 나은 서비스 제공을 변명으로 삼지만, 전체 업계 관점에서 보면 이는 결코 '정당한 이유'가 될 수 없다. Apple Intelligence는 명확히 클라우드에 사용자 데이터를 저장하지 않으며, Apple 자신을 포함한 어떤 기관도 사용자 데이터를 획득하지 못하도록 다양한 기술 수단을 채택한다고 밝혀 사용자 신뢰를 얻었다.

의심의 여지없이 현재 주류 대규모 모델은 투명성 측면에서 해결해야 할 많은 시급한 문제가 있다. 사용자 데이터 철회의 어려움, 훈련 자료 출처의 불투명성, 그리고 에이전트 및 엣지 AI가 가져오는 복잡한 프라이버시 위험은 모두 사용자가 대규모 모델에 대한 신뢰 기반을 끊임없이 침식하고 있다.

대규모 모델은 디지털화 진전을 견인하는 핵심 동력으로서, 그 투명성 향상은 시급한 과제가 됐다. 이는 단지 사용자 개인정보 보안과 프라이버시 보호에 관한 문제가 아니라, 대규모 모델 산업 전체가 건강하고 지속 가능하게 발전할 수 있는 핵심 요소이기도 하다.

앞으로 주요 대규모 모델 업체들이 적극적으로 대응하여 제품 설계와 개인정보 보호정책을 자발적으로 개선하고, 더욱 개방적이고 투명한 자세로 사용자에게 데이터의 출처와 흐름을 명확히 설명해 사용자가 안심하고 대규모 모델 기술을 사용할 수 있기를 기대한다. 동시에 규제 당국도 관련 법률과 규정을 서둘러 보완하여 데이터 사용 규범과 책임 경계를 명확히 하여, 대규모 모델 산업이 혁신적인 활력을 갖추면서도 안전하고 질서 있는 발전 환경을 조성함으로써 대규모 모델이 진정으로 인류를 위한 강력한 도구가 되기를 기대한다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

科技新知