
「묘야」 제품 책임자와의 대화: AIGC 제품은 첫날 돈을 받지 않으면, 이후로도 절대 돈을 받을 수 없다
저자 | 완천, 정월
편집 | 정현
누구도 예상하지 못했다. 중국 내 AIGC 분야에서 처음으로 진정한 의미로 대중화된 현상급 제품이 사진 보정(리얼리즘 인물사진)이라는 이미 상당히 성숙한 분야에서 탄생할 줄은 몰랐다.
7월 중순 조용히 출시된 '묘야'는 단 9.9위안과 20장의 사진만으로 예술적인 프로필 사진을 생성할 수 있다는 아이디어로, 짧은 시간 안에 수많은 여성 사용자들이 다운로드해 체험했으며, 생성된 '묘야 미모 사진'은 위챗 모멘트 등 소셜미디어를 강타했다.
묘야의 파급력은 눈부셨지만, 그 이면의 개발팀은 매우 신비로웠다. 출시와 급속한 확산 이전에는 수십 차례의 대규모 모델 발표회에서도 전혀 언급되지 않았고, 수천만에서 억 단위의 엔젤 투자를 받은 '거물급 인재들의 창업'도 아니었으며, 대부분의 업계 관계자들조차 묘야가 창업팀인지, 아니면 대기업 내부 프로젝트인지조차 알지 못했다.
최근, 묘야의 제품 책임자 장월광(張月光)은 기케파크(GeekPark)를 포함한 여러 과학기술 매체들과 공동 인터뷰를 진행했다.
묘야는 알리바바 엔터테인먼트 산하에서 육성된 내부 프로젝트다. ChatGPT가 새로운 AI 물결을 일으킨 후, 장월광은 동료 몇 명과 함께 올해 2월 'AIGC 벽돌깨기 그룹'이라는 내부 채팅방을 만들었다. 한 달간 논의 끝에 '리얼리즘 인물사진' 방향성을 결정하고, 이후 3개월간 구체적인 제품인 '묘야'를 개발했다.
이는 구글 초기 유명한 '20% 자유시간 제도'와 거기서 탄생한 구글 글래스, 카드보드, 자율주행 자동차 같은 혁신들을 떠올리게 한다. 실리콘밸리식 혁신의 낭만적인 시작은 묘야에 대한 우리의 궁금증을 더욱 증폭시켰다.
한 시간 반에 걸친 인터뷰에서 장월광은 묘야 관련 다양한 질문과 논란에 답했다. 제품의 기술적 세부사항, 사용자 규모, 팀 구성, 미래 수익화 전략 등은 모두 비즈니스 기밀이라 밝힐 수 없다며 말을 아꼈다. 그러나 리얼리즘 인물사진 선택 이유, 제품 개발 과정, 데이터 프라이버시 논란, 그리고 인기 비결 등에 대해서는 상세하게 설명하며 묘야의 신비감을 조금이나마 걷어냈다.
다음은 기케파크가 정리한 인터뷰 내용이다.
01 소수의 관심 그룹에서 시작해, 3개월 만에 '묘야' 완성
질문: 팀은 어떻게 0에서 1까지 만들어냈나요?
답변: 이 프로젝트는 1~2월경 시작되었고, 초반엔 지금처럼 명확한 비즈니스 계획 없이 간단히 관심 그룹처럼 시작했습니다. 저는 동료 5~6명과 함께 AI 및 이미지 기술 분야의 최신 지식과 제품을 연구했습니다. 2월 9일 'AIGC 벽돌깨기 그룹'이라는 채팅방을 만들었습니다. 이후 우리는 점차 이미지 AI 기술 분야의 신기술, 생태계 도구 및 플러그인들을 주목하기 시작했습니다. 3월경 핵심 기술 요소들이 어느 정도 성숙했다고 판단하여 리얼리즘 인물사진 방향으로 개발을 결정했습니다.

묘야 팀 단체사진|묘야카메라 공식 공개계정
우리는 이 방향을 다듬는 데 3개월 이상을 투자했으며, 기술과 미학 디자인 템플릿도 함께 개발했습니다. 제품 개발이 6월 말부터 7월 초에 이르렀을 때, 마침내 사용자에게 선보일 준비가 되었다고 판단했고, 약 2주간 내부 테스트를 진행했습니다. 주변 친구와 동료들을 초대해 피드백을 받았고, 사용자들은 제품 결과물과 만족도가 전반적으로 긍정적이었습니다. 7월 중순, 우리는 정식으로 제품을 공개했습니다. 출시 후 큰 반향을 일으켰고, 사용자들이 실제로 제품을 좋아해 주었으며, 성장 속도는 팀의 초기 예상을 훨씬 뛰어넘었습니다.
자원 지원 측면에서, 초기엔 자원 소모가 크지 않았고, 점차 발전하면서 더 많은 지원을 받게 되었습니다. 가장 중요한 것은 회사가 혁신에 대해 포용적이고 지지하는 태도를 보여줘, 우리가 다양한 시도를 할 수 있었다는 점입니다.
질문: 왜 AIGC 적용 분야로 리얼리즘 인물사진을 선택했나요?
답변: 저는 제품 방향성에 대해 기본적인 분석을 했습니다. 우선 제가 이전에 사진첩 관련 제품을 만들었던 경험이 있는데, 여기서 사용자에게 알고리즘 기반 자동 분류 기능을 제공했습니다. 모든 사용자의 사진첩에서 70% 이상이 실제 사람의 사진이었습니다. 모든 사진 및 이미지 정보를 필터링 없이 통합하면, 리얼리즘 인물사진이 가장 가치 있고 비중이 높으며, 가장 많은 관심을 받는 항목입니다.
또 다른 고려 요소는 해외의 미드저니(Midjourney) 같은 제품이 비교적 성공했고, 국내에도 유사한 제품들이 이를 모방하려 시도하고 있다는 점입니다. 하지만 이런 제품들은 어떤 것도 그릴 수 있는 화가처럼, 기술과 알고리즘에 대한 요구 수준이 상대적으로 높습니다. 더 좁고 수직적인 방향이 실현하기 더 쉽습니다. 이것이 리얼리즘 방향을 선택한 이유입니다.
질문: 많은 사람들이 묘야를 체험한 후 '단 9.9위안으로 천진난(天真藍)과 하이마티(海馬體)를 이긴다'고 말하는데, 어떻게 생각하나요?
답변: 우리는 천진난이나 하이마티를 무너뜨리겠다는 생각은 없습니다. 이것은 사용자들의 슬로건일 뿐입니다. 우리 초기 제품 형태는 현재의 사진촬영 서비스와 유사할 수 있지만, 우리 입장에서는 사진 및 영상 산업과 협력을 통해 산업을 지원하는 존재가 되기를 원합니다. 하이마티처럼 오프라인 촬영 서비스는 결코 대체될 수 없습니다. 고객에게 촬영 자체의 과정이 매우 중요하기 때문입니다. 예를 들어 가족사진을 촬영할 때, 가족들이 함께 모여 이 과정을 완성하는 것 자체가 매우 의미 있는 일입니다. AI 기술이 아무리 발달해도 이러한 과정을 대체할 수는 없습니다.

묘야카메라 메인페이지
저희는 좀 더 하위 도시와 저개발 지역 사용자들에게 접근하고 싶습니다. 그들은 이러한 서비스를 쉽게 접하기 어렵기 때문입니다. 그러나 어디에 있든 아름다움과 사진에 대한 욕구는 존재합니다. 사람들은 누구나 자신을 기념할 만한 사진을 남기고 싶어 하니까요.
초기 감사 편지에서 언급했듯이, 저희는 사진작가와 디자이너들이 템플릿 제작에 참여하도록 했으며, AI 기술이 그들에게 도움이 되는 것도 놀라운 일이라고 생각합니다. 우리는 이 생태계와 상호보완적이며, 적대관계가 아니라고 생각합니다. 이 산업에 도구를 제공하고 싶을 뿐, 경쟁사를 없애려는 의도는 없습니다.
질문: 스스로 돌아봤을 때, 묘야가 왜 인기를 끌었나요?
답변: 가장 중요한 요인은 팀원들의 굳건함과 노력입니다. 팀 분위기는 단순하고 직설적이며, 목표가 명확하고 극한을 추구하는 스타일입니다. 우리는 사용자 경험과 효과를 향상시키기 위해 3개월 이상 시간을 들여 하나의 결과물을 다듬었습니다. 두 번째는 회사가 혁신을 격려하고, 지지하며, 포용하는 태도와, 일부 성과를 본 후 추가적인 지원을 제공한 점입니다.
제품 자체에서 원인을 찾는다면, 몇 가지 점이 있습니다.
첫째, 운이 좋았다고 생각합니다. 둘째, 사용자 경험(UX)이 매우 중요합니다. 제품을 부드럽게 사용할 수 없다면, 제품 자체의 가치가 아무리 높아도 사용자에게 버림받을 것입니다. 제품의 상업적 가치는 선형 관계가 아니라, 일정 기준점을 넘어야 비로소 진정으로 드러납니다. 따라서 제품 설계 시 고품질의 결과물을 추구해야 하며, 최소한 90점 이상은 되어야 합니다. 결과물이 팀원 모두가 '정말 멋지다'고 느낄 정도로 '와! (Wow)' 순간을 만들 수 있다면, 확산 가능성은 매우 높아집니다.
또한 제품의 통제 가능성도 매우 중요합니다. 우리는 제품 설계 시 '진실함', '닮음', '아름다움'의 세 가지 원칙을 고수했습니다. '진실함'은 AI 느낌이 나지 않는 것이고, '닮음'은 사용자와 닮은 것이며, '아름다움'은 사용자보다 3점 정도 더 아름다워야 한다는 것입니다. 이 세 가지 요구 사항이 모두 90점 이상의 품질을 충족해야 제품을 시장에 출시합니다.
질문: 왜 사용자가 올리는 사진 수를 20장으로 정했나요?
답변: 이상적인 결과를 얻기 위해 20장은 현재 단계에서 최적의 선택입니다. 구체적인 사유는 말씀드리기 어렵습니다.

묘야카메라는 사용자에게 20장 이상의 사진 제공을 요구함|묘야 스크린샷
질문: 분석에 따르면, 이런 인기 있는 도구형 제품은 복제 위기에 직면하게 됩니다. 일부는 우리의 기반 모델이 오픈소스 모델을 파인튜닝한 것이라고 추측하며, 기술 장벽이 명확하지 않다고 말합니다. 내부적으로 보면, 기술적 혹은 제품적 장벽은 어디에 있나요?
답변: 기술 구현 방식을 구체적으로 밝히기는 어렵지만, 확실히 일정한 장벽이 있습니다. 가장 중요한 것은 지속적인 반복 개선과 확장, 그리고 결과물의 지속적인 다듬기입니다. 우리 기술팀은 제품의 효과를 계속해서 최적화할 것입니다.
질문: 누군가는 묘야가 Stable Diffusion 모델을 사용하고 LoRA로 파인튜닝한 것 같다고 추측하는데, 현실과 부합하나요?
답변: 이것도 평가하기 어려울 것 같습니다. 기술 구현과 관련된 문제는 모두 비즈니스 기밀에 해당하므로, 공개하기 어렵습니다.
질문: 묘야의 이미지 생성 기반 모델은 자체 훈련한 모델인가요? 알리클라우드의 이미지 생성 모델을 사용하나요?
답변: 묘야는 알리바바 엔터테인먼트 내부 프로젝트이며, 알리클라우드의 관련 기술은 사용하지 않았습니다. 어떻게 구현했는지는 제가 말씀드리기 어렵습니다.
우리는 '티치아노(Tiziano)'라는 모델이 있는데, 아마 (7월 17일 공식 발표 감사 편지에서) 이 이름을 보셨을 겁니다—초상화의 아버지라는 의미입니다. 이 이름에서도 알 수 있듯이, 우리는 처음부터 사용자에게 리얼리즘 인물사진 서비스를 제공하겠다는 의지를 갖고 있었습니다.
질문: 현재 묘야의 템플릿 스타일은 어떻게 형성되나요?
답변: 팀 내 젊은 동료들이 많아서 효율적으로 논의합니다. 더 중요한 것은 사용자를 보는 것입니다. 예를 들어 소셜미디어나 위챗 모멘트에서 공개적으로 전파되는 과정에서 사용자들이 선호하는 방향을 살펴봅니다.
우리는 또한 많은 사용자 의견을 수집합니다. 사용자가 어떤 템플릿을 좋아하는지 파악해 계속해서 새로운 템플릿을 출시하며, 핵심은 사용자 요구를 충족시키는 것입니다. 앞으로 출시될 템플릿들은 거의 모두 사용자 요청에 따라 만들어졌습니다.
질문: 묘야카메라는 결과물의 사실성과 아름다움을 어떻게 균형 잡나요?
답변: 7~8점은 닮음, 2~3점은 아름다움입니다. 리얼리즘 인물사진 방향성을 정할 때, 우리는 '진실함', '닮음', '아름다움' 세 가지를 언급했습니다. 즉, AI 느낌이 나지 않고, 가능한 한 나와 닮되, 나보다 더 아름다워야 합니다. 뷰티캠이나 세대를 거듭한 촬영 제품들에서 이는 상식입니다.
또한 우리는 이 선택권을 사용자에게 줍니다. 인물사진이 처음 나올 땐 매우 아름답지만, 너무 닮지 않았을 수 있는데, 특별한 기능을 통해 사진을 더 나답게 만들 수 있습니다. 몇 번 더 클릭하면 점점 더 닮아갑니다.
질문: 묘야는 앞으로도 계속해서 젊은 여성층만을 대상으로 하나요?
답변: 셀카 또는 이미지 관련 제품의 주 사용자는 모두 여성입니다. 템플릿 수만 봐도 쉽게 알 수 있습니다.
02 프라이버시와 데이터 보안 논란
질문: 알리 엔터테인먼트의 방대한 영상 자원을 바탕으로, 동영상 얼굴 교체 연동 제품 계획이 있나요? 예를 들어 등록된 얼굴을 드라마 속 캐릭터로 바로 교체하는 것처럼요.
답변: 우리는 알리바바 엔터테인먼트와의 연동을 목표로 하지 않습니다. 다만 정말 적절한 기회가 있다면, 드라마, 고풍, 청궁 등과의 연동 제품을 고려해볼 수 있으며, 사용자 관심 방향을 탐색할 수 있습니다.
얼굴 교체 자체는 우리가 절대 하지 않을 일입니다. 제품을 처음 정의할 때부터 기존의 얼굴 교체 제품과 다르게 설정했고, 오히려 의도적으로 피했던 부분입니다.
질문: 시장에 나와 있는 얼굴 교체 제품들의 발전을 어떻게 보시나요?
답변: 얼굴 교체는 꽤 성숙한 제품이며, 그 제품 시나리오에 대해 더 이상 평가하지 않겠습니다. 다른 한편으로는 일정한 보안 문제가 있습니다.
우리가 AI로 생성한 사진은 기존의 직접적인 얼굴 교체보다 오히려 덜 실제감이 있습니다., 적어도 얼굴 핵심점 검출 보안 수준에서는 절대 통과되지 않으며, 단지 비슷해 보일 뿐입니다. 이런 방식은 사용자 데이터가 안전하고, 생성 과정도 상대적으로 안전하며, 장기적인 발전 가능성이 큽니다.
질문: 개인정보 조항 논란을 어떻게 보시나요?
답변: 묘야는 출시 후 이용약관 때문에 논란이 있었고, 우리는 즉각 수정했습니다. 이는 우리 자신의 문제임을 인정합니다. 일부 관점에서 보면, 약관을 충분히 설명하지 않았거나, 가장 간단한 방법으로 사용자에게 알려주지 않은 것입니다.
기존 약관이라 하더라도, 자세히 읽어보면 새 약관과 유사합니다. 즉, 제품의 모든 생성물 권리가 사용자에게 귀속되며, 우리는 2차 사용할 수 없습니다. 하지만 사용자에게 정상적인 서비스를 제공하기 위해 제품 내에서 사용자 작품을 전시하고 조작하며, 공유, 다운로드 등의 서비스를 제공하려면 당연히 사용자로부터 권한을 얻어야 합니다. 원래 약관도 같은 의미였지만, 표현 방식에 문제가 있었기 때문에 수정했습니다.
우리의 본래 의도는 우리가 만든 모든 것은 사용자에게 속하며, 우리는 소유권이 없다는 것입니다. 당신의 모든 데이터는 저장하지 않으며, 사용하지도 않습니다. 전시할 필요가 있으면 잠깐 보여주는 정도입니다. 이것이 우리의 초심입니다.
질문: 묘야 제품 사용 시 20장의 사진을 업로드해야 하는데, 생성 후 플랫폼이 디지털 아바타 데이터를 삭제한다고 말씀하셨는데, 왜 이전 버전에선 '훈련 데이터로 사용한다'는 조항이 있었나요?
답변: 먼저 말씀드리면, 우리는 이 데이터를 훈련 데이터로 사용하지 않았고, 한 번도 사용한 적이 없으며, 앞으로도 사용하지 않을 것입니다. 이전 약관이 모두를 겁먹게 했습니다.

묘야카메라 원래 논란이 된 이용약관
다시 설명하겠습니다. 이 조항 바로 앞에는 모든 생성물의 소유권이 사용자에게 있다고 명시되어 있습니다. 소유권을 완전히 사용자에게 양도했기 때문에, 다시 정보를 전시하기 위해선 사용자의 동의와 권한을 받아야 하는 것입니다.
사실 많은 제품의 이용약관을 보면, 플랫폼에서 제작한 물품의 소유권이 사용자에게 있다고 명확히 말하지 않고, 모호하거나 오히려 플랫폼 소유로 되어 있습니다. 만약 플랫폼 소유라면 당연히 사용자 동의 없이 사용할 수 있으니까요.
이 조치는 확실히 우리 문제였습니다. 본래의 좋은 의도를 사람들이 매우 두려워하는 방식으로 표현한 셈입니다. 반드시 밝혀두겠습니다. 우리 팀은 사용자 개인정보 침해나 남용을 한 번도 고려한 적이 없습니다. 그러므로 표현이 너무 전문적이거나 사용자가 이해하기 어려운 것을 발견하자마자 즉각 수정했으며, 마음의 부담도 전혀 없었습니다. 왜냐하면 우리는 그런 일을 한 번도 하지 않았기 때문입니다.
질문: 사용자의 얼굴 특징이 추출되거나 유출되나요?
답변: 우리는 사용자의 얼굴 핵심점을 추출하지 않으며, 그런 작업 자체가 없습니다. 사용자가 사진을 업로드할 때, 식별 프로세스가 있지만, 이는 국가 법률 규정에 어긋나는 사진이 업로드되지 않도록 하는 보안 관련 검사를 위한 것이며, 사용자의 얼굴 데이터 포인트를 획득하지는 않습니다.
둘째, 사용자가 디지털 아바타를 만드는 과정도 얼굴 특징을 추출하는 과정이 아닙니다. 반대로 말하면, 당시 업로드한 20장의 사진을 다시 역추적해 복원하는 것은 불가능합니다. 기술 원리를 구체적으로 밝힐 수는 없지만, 사용자 얼굴 데이터 정보의 추출은 전혀 관련이 없습니다.
이 때문에 제가 앞서 말했듯이, 소셜미디어나 위챗 모멘트에 본인 얼굴을 올리는 것보다 이런 생성형 제품을 걱정하는 보안 위험이 더 크다고 생각한다면, 사실 그 위험성은 오히려 더 낮을 수 있습니다.
질문: 사용자 얼굴 핵심 데이터를 추
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












