AIプログラミングで40万ドル稼げる？

2025.02.20

共有先

TechFlow厳選深潮セレクト

AIプログラミングで40万ドル稼げる？

AIがプログラマーを代替する可能性は、現時点ではそれほど極端ではない。

2025.02.20 - 09:06:22

Web3業界の深掘り報道に専念し潮流を洞察

AIがプログラマーを代替する可能性は、現時点ではそれほど極端ではない。

筆者：譚梓馨、ヘッドラインテック

画像出典：無界AI生成

大規模言語モデル（LLM）はソフトウェア開発の方法を変えつつあり、AIが人間のプログラマーを大規模に代替できるかどうかという点が業界で注目されている話題となっている。

わずか2年間で、AI大規模モデルは基礎的なコンピュータ科学問題の解決から出発し、国際プログラミングコンテストで人間のトッププレーヤーと競えるレベルまで進化した。たとえばOpenAIのo1は、2024年の国際情報オリンピック（IOI）に人間の参加者と同じ条件で参加し、金メダルを獲得しており、強力なプログラミング能力を示している。

同時に、AIのイテレーション速度も加速している。コード生成評価ベンチマークSWE-Bench Verifiedにおいて、2024年8月のGPT-4oのスコアは33%だったが、最新のo3モデルではそのスコアが倍増して72%に達している。

AIモデルが現実世界でのソフトウェア工学能力をより適切に測定するために、本日、OpenAIは新たに評価ベンチマークSWE-Lancerをオープンソースとして公開した。これはモデルの性能を貨幣価値と結びつけた初めての試みである。

SWE-LancerはUpworkプラットフォームから得られた1400以上のフリーソフトウェアエンジニアリングタスクを含むベンチマークであり、これらのタスクの現実世界での合計報酬額は約100万ドルにのぼる。AIがプログラミングを行った場合、一体いくら稼げるのか？

新ベンチマークの「特徴」

SWE-Lancerのタスク価格は、実際の市場価値を反映しており、タスクが難しいほど報酬も高くなる仕組みになっている。

独立したエンジニアリングタスクだけでなく、管理タスクも含まれており、技術的実装プランの選択も可能。このベンチマークはプログラマーのみならず、アーキテクトや管理者を含む開発チーム全体を対象としている。

これまでのソフトウェア工学テストベンチマークと比較して、SWE-Lancerには以下のような複数の利点がある：

1、全1488タスクは雇用者がフリーエンジニアに支払った実際の報酬を表しており、市場が自然に決定した難易度の勾配を提供する。報酬は250ドルから3万2000ドルまでと幅広く、かなり高額である。

うち35%のタスクが1000ドル以上、34%が500ドルから1000ドルの間にある。個別貢献者（IC）ソフトウェアエンジニア（SWE）タスクのグループは764のタスクを含み、総額41万4775ドル。一方、SWE管理タスクのグループは724のタスクを含み、総額58万5225ドルである。

2、現実世界の大規模ソフトウェア工学では、単にコードを書くだけでなく、技術的な統括管理能力も必要となる。このベンチマークは実世界のデータを使って、モデルがSWE「技術責任者」としての役割を果たせるかを評価する。

3、高度なフルスタック工学評価能力を備える。SWE-Lancerは、何百万人もの実ユーザーを持つプラットフォームからのタスクに基づいており、現実世界のソフトウェア工学を代表している。

タスクにはモバイルおよびWebアプリの開発、API・ブラウザ・外部アプリケーションとの連携、複雑な問題の検証や再現などが含まれる。

たとえば、250ドルのタスクでは信頼性向上（二重トリガーされるAPI呼び出しの修正）、1000ドルのタスクでは脆弱性の修復（権限差異問題の解決）、1万6000ドルのタスクでは新機能の実装（Web、iOS、Android、デスクトップでのインアプリ動画再生サポートの追加など）が求められる。

4、分野の多様性。IC SWEタスクの74%、SWE管理タスクの76%がアプリケーションロジックに関わっており、IC SWEタスクの17%、SWE管理タスクの18%がUI/UX開発に関わっている。

難易度に関しては、SWE-Lancerで選ばれたタスクは非常に挑戦的であり、オープンソースデータセット内のタスクは平均してGithub上で解決に26日を要する。

さらに、OpenAIは偏りのないデータ収集を行い、Upworkから代表的なタスクサンプルを選定し、100人の専門ソフトウェアエンジニアを雇ってすべてのタスクに対してエンドツーエンドのテストを作成・検証した。

AIコーディングによる収益能力の比較

多くのテックリーダーがAIモデルが「初級」エンジニアを代替できると主張しているが、企業が本当にLLMで人間のソフトウェアエンジニアを完全に置き換えられるかは大きな疑問符がつく。

最初の評価結果によると、完全なSWE-Lancerデータセット上でテストされたAIのトップモデルですら、100万ドルの潜在的総報酬には遠く及ばない。

全体的に見ると、すべてのモデルはSWE管理タスクでの成績がIC SWEタスクよりも優れている。一方、IC SWEタスクは大きくAIモデルによって克服されておらず、現時点での最高成績はOpenAIの競合企業Anthropicが開発したClaude 3.5 Sonnetである。

IC SWEタスクでは、すべてのモデルの単一パス率と収益率が30%未満であるのに対し、SWE管理タスクでは最高モデルのClaude 3.5 Sonnetが45%のスコアを記録した。

Claude 3.5 SonnetはIC SWEタスクでもSWE管理タスクでも強力なパフォーマンスを示しており、IC SWEタスクでは第2位のモデルo1より9.7%高く、SWE管理タスクでは3.4%高い。

収益に換算すると、最も優れたClaude 3.5 Sonnetは完全データセット上で40万ドルを超える収入を得た。

注目に値するのは、より高い推論計算量が「AIの収益」に大きく貢献することである。

IC SWEタスクにおいて、深層推論ツールを有効にしたo1モデルに対する実験では、推論計算量を高めることで単一パス率を9.3%から16.5%まで引き上げられ、収益も1万6000ドルから2万9000ドルに、収益率も6.8%から12.1%に向上した。

研究者らは、最高モデルのClaude 3.5 Sonnetが26.2%のIC SWE問題を解決したものの、残りの大部分の解決策には依然としてエラーがあり、信頼できる展開にはさらなる改良作業が必要だとまとめている。次点はo1、そしてGPT-4oであり、管理タスクの単一パス率は通常、IC SWEタスクのそれを2倍以上上回っている。

つまり、AIエージェントが人間のソフトウェアエンジニアを代替するという考え方が盛んに宣伝されていても、企業は今すぐ導入する前に熟考すべきだということになる。AIモデルはいくつかの「初級」コーディング課題は解決できるが、「初級」ソフトウェアエンジニアを代替することはできない。なぜなら、コードエラーの原因を理解できず、さらに多くの派生エラーを繰り返してしまうからである。

現在の評価フレームワークはマルチモーダル入力をサポートしておらず、また「投資収益率（ROI）」の評価も行われていない。たとえば、タスク完了時にフリーランサーへの報酬とAPI利用コストを比較するといった点は、今後のベンチマーク改善の重点となる。

「AI強化型」プログラマーになる

現時点では、AIが人間のプログラマーを真に代替するにはまだ長い道のりがある。ソフトウェアプロジェクトを開発することは、単に要求通りにコードを生成するだけではないからだ。

たとえば、プログラマーは極めて複雑で抽象的かつ曖昧な顧客ニーズに直面することが多く、これにはさまざまな技術原理、ビジネスロジック、システムアーキテクチャに対する深い理解が必要となる。複雑なソフトウェアアーキテクチャを最適化する際、人間のプログラマーは将来の拡張性、保守性、パフォーマンスなどの要素を総合的に考慮できるが、AIはこうした包括的な分析判断を行うのが難しい。

さらに、プログラミングは既存のロジックを実装するだけでなく、創造性と革新性の思考が大量に求められる。新しいアルゴリズムを考案したり、ユニークなソフトウェアインターフェースやインタラクション方式を設計したりする必要があるが、このような真正の新規アイデアと解決策はAIの弱点である。

プログラマーは通常、チームメンバー、クライアント、その他の関係者とコミュニケーションや協働を行う必要があり、それぞれのニーズや実現可能性を理解し、自分の意見を明確に伝え、共同でプロジェクトを完成させる能力が求められる。また、人間のプログラマーは継続的に学習し、変化に適応する能力を持ち、新しい知識やスキルをすばやく習得して実際のプロジェクトに活用できる。一方、成功したAIモデルの開発には多様なトレーニングとテストが必要である。

ソフトウェア開発業界は知的財産、データ保護、ソフトウェアライセンスなどの法的・規制的制約も受けており、AIはこうした法的要求を完全に理解・遵守するのが難しく、法的リスクや責任問題を引き起こす可能性がある。

長期的には、AI技術の進歩によりプログラマーの職務代替の可能性は依然として存在するが、短期的には「AI強化型プログラマー」が主流であり、最新のAIツールの使い方をマスターすることは優れたプログラマーにとって重要なスキルの一つとなっている。

TechFlow公式コミュニティへようこそ

Telegram購読グループ：https://t.me/TechFlowDaily

Twitter公式アカウント：https://x.com/TechFlowPost

Twitter英語アカウント：https://x.com/BlockFlow_News

原文リンク

お気に入りに追加

SNSで共有

作者

头部科技