SRE (Site Reliability Engineering:サイト信頼性エンジニアリング) の岡田将です。
現在SREチームでは、ClickHouse Cloudを活用したオブザーバビリティ基盤の刷新に向けたPoCに取り組んでいます。 ClickHouse Cloudは、オープンソースの列指向データベースであるClickHouseを、マネージドなクラウドサービスとして提供するものです。本記事では、ClickHouse Cloudを選定候補として検討するに至った背景や理由について紹介します。検証はまだ進行中ですが、同様の課題を持つ方々の技術選定の参考になれば幸いです。
背景
出前館では、サービスの規模拡大や新機能開発に伴ってログやメトリクスも日々増加しており、利用しているオブザーバビリティ基盤のコストが無視できない規模にまで膨らんでいました。コスト最適化の必要性が高まる中で、私たちはいくつかの代替となるオブザーバビリティ基盤の検討を進めており、その過程で、ClickHouseの技術ブログを通じて、他社がClickHouseを用いてオブザーバビリティ基盤を構築している事例を知りました。ClickHouseの列指向アーキテクチャが持つ高いカーディナリティ処理能力を活かし、多様なデータを効率よく保存・検索できる点と、料金体系の違いから、コスト面でも大きな改善が期待できると考え、PoCを本格的に進めることにしました。
候補とする決め手
明確な優位性
コスト
コスト面でのインパクトは非常に大きく、ClickHouse Cloudのストレージ単価自体が、既存のオブザーバビリティ基盤の約10分の1になっています。また、実際に私たちが従来のオブザーバビリティ基盤に送っているログ・メトリクス・トレースをClickHouse Cloudに送ったところ、データサイズが約10分の1に圧縮されることを確認できました。

後押しした要素
サポート
ClickHouseは一部ながら日本語ドキュメントも整備されており、国内のエンジニアによるサポートも受けられます。PoCの期間中は週次ミーティングに加え、Slack上でも技術的な質問に対して迅速かつ的確なフォローをいただいており、日本語で気軽に相談できる体制は心強く、検証をスムーズに進めるうえで助けになっています。
実績
主に海外で大規模にオブザーバビリティ用途として本番運用されている実績があり、自社の規模でも十分な余裕を持って使えるという導入の判断材料となります。
- TeslaがClickHouseで構築した、1,000兆規模のオブザーバビリティ・プラットフォーム
- なぜOpenAIはペタバイト規模のオブザーバビリティにClickHouseを選んだのか
- AnthropicがClickHouseを使ってAI時代のオブザーバビリティをスケールさせる方法
統合UIによる運用の簡素化
ClickHouseがオープンソースのオブザーバビリティ基盤であるHyperDXを買収し、現在はプライベートプレビューの位置づけでClickHouse Cloud上で利用できるようになっています。

活用の広がり
ここでは、オブザーバビリティ以外の活用についても紹介します。 ClickHouse社では、オブザーバビリティデータとリアルタイム分析をひとつの基盤で扱うという方向性を、今後のデータ基盤のあるべき姿としています。私たちもこの考えに共感しており、将来的にはそうした統合的なデータ活用も視野に入れています。このような統合が実現することで、障害解析や顧客行動の追跡などがよりシームレスに行えるようになり、ツール間でのデータ移動に伴う手間を省けると期待しています。加えて、こうした多様なデータをリアルタイムで活用できる基盤は、AIエージェントのような新たなユースケースにも適していると考えています。ClickHouseでは、MCP Serverも用意されており、こうした仕組みとあわせて活用することで、人間だけでなくAIエージェントからのアクセスにも対応できる統合的な基盤を目指せるはずです。今後は、オブザーバビリティに限らず、AIを含めたさまざまな用途でのデータ統合にも取り組んでいく予定です。
おわりに
このあと、社内のいくつかのチームで先行導入を進め、引き続き検証を行っていく予定です。今後も、PoCや実運用の中で得られた知見は、引き続きブログを通じて共有していきます。
出前館では現在、オブザーバビリティを含むSRE領域の仲間を募集しています。このような取り組みに興味を持っていただけた方は、ぜひ採用ページもご覧ください。