HAL_DATA_techBlog

HALDATAの技術ブログです。

PhoenixでLangSmith課金を卒業した話

— 自社エージェント開発のトレースを“タダ”で可視化できる幸福 —


1. なんで乗り換えたの?

LangSmith は便利だけど、月額+ボリューム課金がジワジワ効く。 トレースをまめに残すほどコストが跳ね上がり、 「ログ取りたいのに泣く泣くサンプリング率を下げる…」みたいなシーンが増えていました。

そこで目を付けたのが Arize Phoenix

  • OSS & 自社ホスティング可(Docker 一発)
  • OpenTelemetry 準拠でベンダーロックインなし
  • LangChain / LlamaIndex / Agents SDK / Bedrock …ほぼ全部そのまま計測できる (Arize AI)

要するに 「無料で全部追える LangSmith」 みたいなポジションです。


2. コストをざっくり比較してみた

LangSmith (従量課金プラン例) Phoenix (Self‑host)
初期費用 0円 0円
月額固定 \$30〜 0円
トレース 10万件/月 \$100 前後 0円 (自前サーバー代のみ)
ベンダーロックイン あり なし

※ Phoenix は OSS のためライセンス料ゼロ。Docker を1台立てても社内 Kubernetes ノードにタダ乗りできるなら実質ゼロ円。 「トレース数=請求額」から解放されるのは精神的にでかい。


3. Agent 間通信の“見える化”が神だった

Phoenix には Spans ビュー があり、チェーンやエージェント、ツール呼び出しがツリー構造で並ぶ。 LangChain の Agent → Tool → LLM みたいな複雑フローでも

  • どのエージェントが何秒止まったか
  • ツール呼び出し結果とプロンプト
  • トークン数/レスポンスタイム/LLM コスト見積もり

がワンクリックで追える。RAG の Retriever → Re‑ranker を比較する画面は圧巻 (Arize AI)。

社内の 複数エージェントが A2A (Agent‑to‑Agent) 通信 するケースでも メッセージ ID でスレッドを串刺し可視化できて、 「誰がボトルネックか」議論が 5 分で終わるようになりました。


4. 導入方法(ほんとに5分)

# 1. リポジトリ取得
git clone https://github.com/Arize-ai/phoenix.git
cd phoenix

# 2. Docker 起動
docker compose up -d   # or `docker run arize/phoenix:latest`

# 3. アプリを Phoenix に紐付け
pip install phoenix
from phoenix.trace import instrument_langchain

instrument_langchain()  # あとは通常の LangChain コードを走らせるだけ

ブラウザで http://localhost:6006 を開けば GUI が立ち上がります。 LangChain 以外も phoenix.instrument_openai() のようなワンライナーで OK。


5. トレースを超えて:評価、プレイグラウンド、プロンプト管理

LangSmith からの乗り換え理由としてトレース機能は十分すぎるほど強力ですが、Phoenix の真価はそれだけではありません。あまり知られていませんが、Phoenix はエージェント開発のサイクル全体をサポートする強力な機能を無料で提供しています。

a) LLMによる自動評価 (Evaluation)

これは「LLM を使って LLM を評価する」機能です。例えば、GPT-4 を「評価者」として設定し、自社エージェントの回答が以下の基準を満たしているか自動でスコアリングできます。 - ハルシネーション(幻覚) を起こしていないか - RAG で取得したドキュメント は質問と関連性があるか - 回答のトーン は指定通りか(例:丁寧、フレンドリー)

これにより、開発者は「遅い/速い」だけでなく、エージェントの回答が「良い/悪い」かも定量的に追跡できるようになります。

b) プロンプト・プレイグラウンド (Prompt Playground)

失敗したトレースを見つけたら、その場でプロンプトを修正して試せる対話型の実験場です。UI 上で特定のトレースを選択し、プロンプトテンプレートやシステムメッセージを編集して「再実行」ボタンを押すだけで、コードをデプロイし直すことなく、同じ入力データでプロンプトの改善をリアルタイムに試せます。デバッグの速度が文字通り桁違いに向上しました。

c) プロンプトの一元管理 (Prompt Management)

Phoenix を「プロンプトの保管庫」として使うこともできます。UI を通じてプロンプトを保存、バージョン管理し、タグ付けすることが可能です。アプリケーション側では、ハードコードする代わりに Phoenix からプロンプト名やタグで動的にプロンプトを呼び出します。これにより、プロンプトがコード内に散らVるのを防ぎ、非エンジニアでもプロンプトのチューニングに参加しやすくなります。


6. まとめ

  • LangSmith → Phoenix「ログ取りたくても課金が怖い」 から解放
  • Self‑host なので 顧客データも社内閉じ、コンプラ的にも安心
  • Agent 間通信やツール呼び出しをグラフィカルに追えて デバッグ速度が爆速
  • トレースだけでなく、評価・実験・プロンプト管理まで 可能な統合開発ハブ

もし「Trace 量が多すぎて LangSmith の請求がエグい…」と悩んでいるなら、 Phoenix に乗り換えるだけで“開発ログ貧乏”を卒業できます。