出前館のオブザーバビリティ基盤の課題とClickHouse Cloudを用いた未来

SRE (Site Reliability Engineering:サイト信頼性エンジニアリング) の岡田将です。

現在SREチームでは、ClickHouse Cloudを活用したオブザーバビリティ基盤の刷新に向けたPoCに取り組んでいます。 ClickHouse Cloudは、オープンソースの列指向データベースであるClickHouseを、マネージドなクラウドサービスとして提供するものです。本記事では、ClickHouse Cloudを選定候補として検討するに至った背景や理由について紹介します。検証はまだ進行中ですが、同様の課題を持つ方々の技術選定の参考になれば幸いです。

背景

出前館では、サービスの規模拡大や新機能開発に伴ってログやメトリクスも日々増加しており、利用しているオブザーバビリティ基盤のコストが無視できない規模にまで膨らんでいました。コスト最適化の必要性が高まる中で、私たちはいくつかの代替となるオブザーバビリティ基盤の検討を進めており、その過程で、ClickHouseの技術ブログを通じて、他社がClickHouseを用いてオブザーバビリティ基盤を構築している事例を知りました。ClickHouseの列指向アーキテクチャが持つ高いカーディナリティ処理能力を活かし、多様なデータを効率よく保存・検索できる点と、料金体系の違いから、コスト面でも大きな改善が期待できると考え、PoCを本格的に進めることにしました。

候補とする決め手

明確な優位性

コスト

コスト面でのインパクトは非常に大きく、ClickHouse Cloudのストレージ単価自体が、既存のオブザーバビリティ基盤の約10分の1になっています。また、実際に私たちが従来のオブザーバビリティ基盤に送っているログ・メトリクス・トレースをClickHouse Cloudに送ったところ、データサイズが約10分の1に圧縮されることを確認できました。

ClickHouse Cloud上で確認したクエリ結果。メトリクスが元のサイズから約10分の1に圧縮されていることがわかる
ストレージ単価の差とデータ圧縮効果を合わせると、場合によっては従来比で100分の1に近いコスト削減が見込める試算になりました。もちろん、実際の運用ではストレージ以外にもコンピュートやデータ転送などのコストが発生しますが、これらを含めて試算しても、現在の環境と比較して全体として大幅なコスト削減が期待できます。

後押しした要素

サポート

ClickHouseは一部ながら日本語ドキュメントも整備されており、国内のエンジニアによるサポートも受けられます。PoCの期間中は週次ミーティングに加え、Slack上でも技術的な質問に対して迅速かつ的確なフォローをいただいており、日本語で気軽に相談できる体制は心強く、検証をスムーズに進めるうえで助けになっています。

ClickHouse社とやり取りしている専用Slackチャンネル。日本語で気軽に相談できる体制が整っている

実績

主に海外で大規模にオブザーバビリティ用途として本番運用されている実績があり、自社の規模でも十分な余裕を持って使えるという導入の判断材料となります。

統合UIによる運用の簡素化

ClickHouseがオープンソースのオブザーバビリティ基盤であるHyperDXを買収し、現在はプライベートプレビューの位置づけでClickHouse Cloud上で利用できるようになっています。

参照: ClickHouse HyperDX demo site: https://play.hyperdx.io/
当初はGrafanaを使ってダッシュボードやアラートの運用を検討していましたが、HyperDXの統合により、これらを個別に用意したり運用したりする手間を省けます。現時点では一部の機能や操作性に改善の余地があり、本番運用を想定すると足りない部分も見受けられます。しかし、開発は活発で、頻繁にアップデートが行われています。私たちとしても、検証過程で見えてきた課題や気づきをもとに積極的にフィードバックし、今後の製品改善に貢献していきたいと考えています。

活用の広がり

ここでは、オブザーバビリティ以外の活用についても紹介します。 ClickHouse社では、オブザーバビリティデータとリアルタイム分析をひとつの基盤で扱うという方向性を、今後のデータ基盤のあるべき姿としています。私たちもこの考えに共感しており、将来的にはそうした統合的なデータ活用も視野に入れています。このような統合が実現することで、障害解析や顧客行動の追跡などがよりシームレスに行えるようになり、ツール間でのデータ移動に伴う手間を省けると期待しています。加えて、こうした多様なデータをリアルタイムで活用できる基盤は、AIエージェントのような新たなユースケースにも適していると考えています。ClickHouseでは、MCP Serverも用意されており、こうした仕組みとあわせて活用することで、人間だけでなくAIエージェントからのアクセスにも対応できる統合的な基盤を目指せるはずです。今後は、オブザーバビリティに限らず、AIを含めたさまざまな用途でのデータ統合にも取り組んでいく予定です。

おわりに

このあと、社内のいくつかのチームで先行導入を進め、引き続き検証を行っていく予定です。今後も、PoCや実運用の中で得られた知見は、引き続きブログを通じて共有していきます。

出前館では現在、オブザーバビリティを含むSRE領域の仲間を募集しています。このような取り組みに興味を持っていただけた方は、ぜひ採用ページもご覧ください。