
AI 프로그래밍으로 일을 시켜 40만 달러를 벌 수 있을까?
저자: 탄즈신, 헤드라인 테크

이미지 출처: 무계 AI 생성
대규모 언어 모델(LLM)은 소프트웨어 개발 방식을 변화시키고 있으며, AI가 인간 프로그래머를 대규모로 대체할 수 있는지 여부는 업계의 주요 관심사가 되고 있다.
단 2년 만에 AI 대규모 모델은 기초 컴퓨터 과학 문제 해결에서 벗어나 국제 프로그래밍 경쟁대회에서 인간 고수와 겨룰 수 있는 수준까지 발전했다. 예를 들어 OpenAI o1은 2024년 국제정보올림피아드(IOI)에 인간 참가자와 동일한 조건으로 참가해 금메달을 획득하며 강력한 프로그래밍 잠재력을 보여주었다.
동시에 AI의 반복 개선 속도도 빨라지고 있다. 코드 생성 평가 벤치마크 SWE-Bench Verified에서 2024년 8월 GPT-4o의 점수는 33%였지만, 차세대 o3 모델에서는 이미 두 배로 증가한 72%를 기록했다.

현실 세계에서 AI 모델의 소프트웨어 공학 능력을 더욱 정확하게 측정하기 위해 오늘 OpenAI는 새로운 평가 벤치마크 SWE-Lancer를 오픈소스로 공개하였으며, 모델 성능을 처음으로 화폐 가치와 연결지었다.
SWE-Lancer는 Upwork 플랫폼에서 수집한 1,400여 개의 자유 소프트웨어 공학 과제로 구성된 벤치마크이며, 이 과제들의 현실 세계 총 보상 가치는 약 100만 달러에 달한다. 그렇다면 AI가 프로그래밍을 수행했을 때 얼마나 벌 수 있을까?
새로운 벤치마크의 “특징”
SWE-Lancer의 과제 가격은 실제 시장 가치 상황을 반영하며, 과제가 어려울수록 보상이 높다.
이는 독립적인 공학 과제뿐만 아니라 관리 과제도 포함하며, 기술 구현 방안 간 선택도 가능하다. 이 벤치마크는 프로그래머에게 국한되지 않고 아키텍트 및 관리자 등 전체 개발팀을 대상으로 한다.

기존의 소프트웨어 공학 테스트 벤치마크에 비해 SWE-Lancer는 다음과 같은 여러 가지 장점을 지닌다.
1. 모두 1,488개의 과제는 고용주가 프리랜서 엔지니어에게 지불하는 실제 보상을 나타내며, 자연스럽고 시장에 의해 결정되는 난이도 단계를 제공한다. 보상은 250달러에서 32,000달러까지 다양하며, 상당히 인상적이다.
이 중 35%의 과제는 1,000달러 이상의 가치를 지니며, 34%는 500달러에서 1,000달러 사이의 가치를 갖는다. 개인 기여자(IC) 소프트웨어 엔지니어(SWE) 과제 그룹은 764개 과제로 총 가치는 41만 4,775달러이며, SWE 관리 과제 그룹은 724개 과제로 총 가치는 58만 5,225달러이다.
2. 현실 세계의 대규모 소프트웨어 공학은 구체적인 코딩 개발뿐 아니라 기술 통합 관리 능력도 필요하다. 이 벤치마크는 실제 데이터를 사용하여 모델이 SWE “기술 책임자” 역할을 수행할 수 있는지를 평가한다.

3. 고급 전반적 스택(Full-stack) 공학 평가 능력을 갖추고 있다. SWE-Lancer는 수백만 명의 실제 사용자가 있는 플랫폼에서 온 과제를 통해 현실 세계의 소프트웨어 공학을 반영한다.
과제들은 모바일 및 웹 엔지니어링 개발, API, 브라우저 및 외부 애플리케이션과의 상호작용, 복잡한 문제의 검증 및 재현 등을 포함한다.
예를 들어, 250달러를 받고 신뢰성 향상(API 호출 중복 트리거 문제 해결), 1,000달러를 받고 취약점 수정(권한 차이 문제 해결), 16,000달러를 받고 신규 기능 구현(웹, iOS, 안드로이드, 데스크톱에서 인앱 비디오 재생 지원 추가 등) 등의 작업이 있다.
4. 분야 다양성. IC SWE 과제의 74%, SWE 관리 과제의 76%가 애플리케이션 로직을 포함하고 있으며, 17%의 IC SWE 과제와 18%의 SWE 관리 과제는 UI/UX 개발을 다룬다.
난이도 측면에서 SWE-Lancer가 선정한 과제는 매우 도전적인데, 오픈소스 데이터셋의 과제는 GitHub에서 해결하는 데 평균 26일이 소요된다.
또한 OpenAI는 편향 없는 데이터 수집을 위해 Upwork에서 대표적인 과제 샘플을 선정하고, 100명의 전문 소프트웨어 엔지니어를 고용해 모든 과제에 대한 종단간(end-to-end) 테스트를 작성하고 검증했다고 밝혔다.
AI 코딩 수익화 능력 대결
많은 테크 리더들이 AI 모델이 “초급” 엔지니어를 대체할 수 있다고 주장하지만, 기업이 LLM을 사용해 인간 소프트웨어 엔지니어를 완전히 대체할 수 있을지는 여전히 큰 의문이다.
초기 평가 결과에 따르면, 전체 SWE-Lancer 데이터셋 기준으로 현재 평가된 AI 최고 모델들조차 잠재적 총 보상 100만 달러에는 크게 못 미친다.

전반적으로 모든 모델은 IC SWE 과제보다 SWE 관리 과제에서 더 나은 성과를 보였다. 그러나 IC SWE 과제는 여전히 대부분 AI 모델이 충분히 해결하지 못한 상태이며, 현재 평가된 모델 중 가장 우수한 것은 OpenAI의 경쟁사인 Anthropic가 개발한 Claude 3.5 Sonnet이다.
IC SWE 과제에서 모든 모델의 단일 통과율과 수익률은 30% 미만이며, SWE 관리 과제에서는 최고 성능 모델인 Claude 3.5 Sonnet의 점수가 45%이다.
Claude 3.5 Sonnet은 IC SWE 및 SWE 관리 과제 모두에서 강력한 성능을 보였으며, IC SWE 과제에서 두 번째로 좋은 모델인 o1보다 9.7% 높았고, SWE 관리 과제에서는 3.4% 높았다.
수익으로 환산하면, 최고 성능의 Claude 3.5 Sonnet은 전체 데이터셋에서 총 수입이 40만 달러를 초과한다.

주목할 점은 더 높은 추론 컴퓨팅량이 “AI 수익화”에 큰 도움이 된다는 것이다.
IC SWE 과제에서 심층 추론 도구를 활성화한 o1 모델 실험 결과, 더 높은 추론 컴퓨팅량은 단일 통과율을 9.3%에서 16.5%로 향상시키고, 수익도 1.6만 달러에서 2.9만 달러로 증가시켰으며, 수익률은 6.8%에서 12.1%로 상승했다.
연구진은 최고 모델인 Claude 3.5 Sonnet이 26.2%의 IC SWE 문제를 해결했지만, 나머지 대부분의 해결책은 여전히 오류를 포함하고 있어 신뢰할 수 있는 배포를 위해서는 많은 개선 작업이 필요하다고 요약했다. 다음으로 o1, 그리고 GPT-4o 순이며, 관리 과제의 단일 통과율은 일반적으로 IC SWE 과제의 두 배 이상이다.
이는 즉, AI 에이전트가 인간 소프트웨어 엔지니어를 대체한다는 주장이 과장되게 부풀려졌더라도, 기업은 여전히 신중하게 접근해야 한다는 의미이다. AI 모델은 일부 “초급” 코딩 문제는 해결할 수 있지만 “초급” 소프트웨어 엔지니어를 대체할 수는 없다. 왜냐하면 코드 오류의 원인을 이해하지 못하고 더 많은 연장 오류를 반복하기 때문이다.
현재 평가 프레임워크는 멀티모달 입력을 지원하지 않으며, 연구진은 아직 “투자 수익률(ROI)”을 평가하지 않았다. 예를 들어 과제 완료 시 프리랜서에게 지급되는 보수와 API 사용 비용을 비교하는 작업이 남아 있으며, 이는 해당 벤치마크의 다음 단계 핵심 개선 사항이 될 것이다.
“AI 확장형” 프로그래머 되기
현재로서는 AI가 인간 프로그래머를 진정으로 대체하기까지는 아직 갈 길이 멀다. 소프트웨어 공학 프로젝트를 개발하는 것은 단순히 요구사항에 따라 코드를 생성하는 것 이상이기 때문이다.
예를 들어 프로그래머는 종종 극도로 복잡하고 추상적이며 모호한 고객 요구 사항에 직면하는데, 이는 다양한 기술 원리, 비즈니스 로직 및 시스템 아키텍처에 대한 깊은 이해를 필요로 한다. 복잡한 소프트웨어 아키텍처를 최적화할 때 인간 프로그래머는 시스템의 미래 확장성, 유지보수성, 성능 등을 종합적으로 고려할 수 있지만, AI는 포괄적인 분석 및 판단을 내리기 어렵다.
또한 프로그래밍은 기존 로직을 구현하는 것을 넘어 창의성과 혁신적 사고가 많이 요구된다. 프로그래머는 새로운 알고리즘을 고안하고 독창적인 소프트웨어 인터페이스 및 상호작용 방식을 설계해야 하며, 이러한 진정한 새로움을 지닌 아이디어와 해결책은 AI의 약점이다.

프로그래머는 일반적으로 팀원, 고객 및 기타 이해관계자와의 의사소통 및 협업도 필요하다. 각 당사자의 요구와 실현 가능성을 이해하고 자신의 의견을 명확하게 표현하며 협력하여 프로젝트를 완료해야 한다. 또한 인간 프로그래머는 지속적으로 학습하고 새로운 변화에 적응하는 능력을 갖추고 있어 신지식과 신기술을 빠르게 습득하고 실제 프로젝트에 적용할 수 있으며, 반면 성공적인 AI 모델은 다양한 훈련과 테스트를 거쳐야 한다.
소프트웨어 개발 산업은 지적 재산권, 데이터 보호, 소프트웨어 라이선스 등의 다양한 법률 및 규제 제약을 받는다. 인공지능은 이러한 법적 요구사항을 완전히 이해하고 준수하기 어려워 법적 리스크나 책임 분쟁을 초래할 수 있다.
장기적으로 AI 기술 발전이 프로그래머 직무 대체 가능성을 여전히 존재하지만, 단기적으로는 “AI 확장형 프로그래머”가 주류이며, 최신 AI 도구 사용 능력을 익히는 것은 우수한 프로그래머의 핵심 역량 중 하나이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News













