こんにちは。talentbook開発部の岩村です。開発組織におけるAI活用が注目される中、私たちは自律型AIエージェント「Devin」を導入し、約2ヶ月間運用してきました。今回は、その導入効果と課題、そして今後の展望についてお伝えします。
はじめに:なぜDevinを採用したのか
LLMの各種モデルやAIエージェントが急速に進化する中、私たちは二つの確信を持っていました。一つは、AIの精度が今後さらに向上すること。もう一つは、AIとの協働を組織として体系化できるかが、開発組織の生産性を大きく左右する時代が到来していることです。
導入時点で、自律型のAIエージェントとして注目されていた「Devin」を試験導入し、以下の3点を検証することにしました。
1. 現時点でどこまでのタスクをAIに任せられるのか
2. 開発フロー全体のリードタイムをどれだけ短縮できるのか
3. PM・エンジニアがコア業務に集中できる環境をどれだけ整えられるのか
さらに、将来的な観点も重視しました。AIエージェントは今後も様々なサービスが登場することが予想されますが、Devinで蓄積されるknowledgeデータは他のツールでも活用可能です。このデータ資産を適切に管理できれば、将来のツール変更時におけるスイッチングコストを抑制できると考えました。
導入の流れと体制
新しいツールの導入は社内調整が大変なイメージがありますが、執行役員への提案、CFOとの予算調整、規約の確認から情シスとの調整など含めて、約1週間で導入できました。これは、弊社の挑戦に対する寛容性やAIに関する試行錯誤の重要性の認識を表す事例かと思います。
導入後は、私がまず環境構築・試験を行い、指示文のテンプレートややり方を共有後、開発メンバーへ展開しました。
Devin導入による効果
2ヶ月間で、DevinによるPull Requestが94件作成され、そのうち65件がマージされました。
Devin導入の効果は、大きく4つに分けられます。
1. 誰でも最新仕様をすぐに把握できるようになった
DevinにはDevin Searchという強力なツールがあり、自然言語で実コードを元に仕様を確認できます。
そのため、PMの『〇〇機能の仕様を詳しく知りたい。』『□□の表示条件についてどうなっているか』など、知りたい仕様についてエンジニアに問い合わせなくてもすぐに把握できるようになりました。
これにより、開発組織全体で得たい情報へのアクセスが容易になったと感じています。
2. 調査・検証の高速化と不具合修正のリードタイム短縮
カスタマーサクセスからの調査依頼について、従来は調査と修正に最短30分、長い場合は4時間以上を要していました。
Devin導入後は調査時間が10分程度に短縮され、軽微な不具合であれば1〜2時間以内でのリリースが可能となっています。
つまり、作業時間を約50-75%削減できたことになります。
3. テストデータ/APIドキュメント作成負荷削減
テストデータの整備やAPIドキュメントの最新化は、開発効率を高めるうえで重要ですが、これまで手が回らず、更新が滞ったり内容が不足しているケースが多くありました。Devinを導入したことで、これらの課題を解消することができました。
特にAPIドキュメントについては、実際のレスポンスに基づいてエラーハンドリングを含む不足部分を網羅できたほか、今後の更新もDevinに任せることで、常に最新の状態を維持しやすくなりました。
4. 軽微な実装タスクの工数削減
実装関連では、主にリファクタリングや、実装対象が明確な小さいタスクを任せました。
こういったタスクでは、実装、ローカルでの動作確認テストコード作成などをすべて自律的に任せられるため、チケットに仕様を明確に記載したら工程の8割方完了で、残りはレビューと動作確認のみというようなチケットが増えてきました。
これにより、より顧客価値の高い機能更新にエンジニアやPMの時間を割り当てることができ、明確な役割分担ができたかと思います。
見えてきた課題
メリットばかりに見えますが、実際に導入してみて感じた課題もいくつかあります。
JavaScriptリファクタ・Sass/Css周りは指示の出し方に工夫が必要
JavaScriptのリファクタリングでは、共通化すべき部分を明確に指示しないと、期待する共通化が不完全になったり、不要な処理が追加されたりするケースがありました。
例えば、複数のコンポーネントで使用される関数の共通化を依頼した際、一部のコンポーネントが対象から漏れてしまうことがありました。このため、従来以上に詳細なレビューが必要となります。
また、CSS周りについては、こちらで明確な指示をしない限り、イマイチなデザインのまま仕上げてくるため、知見をもう少しためていきたい領域になります。
1セッションあたりのコンテキストの長さの問題
Devinでは、ACU(Agent Compute Unit)という作業量の単位で管理されており、これはDevinが一つのタスクで消費する計算資源の指標です。
これが5を超えたあたりからパフォーマンスの低下が起き、ACU消費が10を超えるとかなりパフォーマンスが落ちるようになります。
実装されたものをレビューして指摘を繰り返し、修正ということをやっていると、10を超えてしまい、指摘した内容が正しく修正されなかったり、デグレを起こしたりして、ACUコストがかかる割に指示側の時間も多く必要になり非効率な状態になります。
そのため、10を超えた時点でおおよそ出来上がっていれば
- 別セッションでPRを特定して修正依頼をする
- 該当のブランチを手元でCursorなどを利用して修正する
ことをしたほうが、最終的なリリースまでのステップが短くてすむという事がありました。
Devin導入による働き方の変化
調査やymlの更新など、時間がかかるタスクや、軽微な修正の多くをDevinが解決できるようになったため、エンジニアが注力すべきタスクについて、より顧客価値につながるものを多く取り組むことができるようになりました。
また、開発者が調査する前に一旦Devinに調査させるというプロセスがあることで、タスクのスイッチングコストが減り、業務に集中できる時間が増えたと感じています。
更に、どうしても後回しにされがちな『//TODO リファクタリング』のような、見て見ぬふりをしていた要改善のコードに対して、devinに依頼して実際に完了するなど、コードの質向上に対して継続的に取り組む事ができています。
Devin導入のまとめ
当初設定した3つの検証項目について、以下の結果が得られました。
1. 現時点でどこまでのタスクをAIに任せられるのか
要件が明確な小規模タスクについては、ほぼ完全に任せることが可能でした。特にAPIドキュメントの作成・更新のような、構造化された作業においては、人間が行うよりも効率的かつ正確な結果を得られることがわかりました。
2. 開発フロー全体のリードタイムをどれだけ短縮できるのか
3. PM・エンジニアがコア業務に集中できる環境をどれだけ整えられるのか
複雑な開発案件ではまだ限界がありますが、調査や軽微な修正作業をDevinに委譲することで、エンジニアが本来注力すべき機能開発に集中できる時間が大幅に増加しました。結果として、開発全体のリードタイム短縮に寄与できています。
現在、Devinはチームに欠かせない存在となっていますが、他のAIツールとの連携やDevin自体の活用においても、まだ多くの可能性が残されています。今後は特定のツールにこだわることなく、AIエージェントとの協働を前提としたチーム体制を構築し、エンジニア・PMがより効率的かつ快適に働ける環境・文化の創造を目指していきます。
今後の展望
AI エージェントの導入により、AIとの協働に組織体制が少しずつシフトできてきました。今後は、各種MCPサーバーを活用して、より既存の情報を活かして顧客価値を高めるためのアクションを取っていきたいと考えています。
AI エージェントとの協働は、開発組織にとって避けて通れない変化です。私たちの経験が、同じような課題に取り組む開発チームの参考になれば幸いです。今後も継続的に改善を重ね、その過程で得られた知見を共有してまいります。
