データベース運用

バックアップ、監視、パフォーマンス管理

データベース運用はデータ保護安定稼働を両立させることが目標。 適切なバックアップ戦略、継続的な監視、パフォーマンスチューニングが重要です。

SREの責任範囲

可用性

  • • SLO/SLI の定義と監視
  • • フェイルオーバーの自動化
  • • 計画的メンテナンスの実施
  • • インシデント対応

データ保護

  • • バックアップの自動化と検証
  • • リカバリ手順の整備
  • • RPO/RTO の達成
  • • 定期的なリストアテスト

パフォーマンス

  • • クエリパフォーマンスの監視
  • • リソース使用率の管理
  • • スロークエリの検出と対応
  • • キャパシティプランニング

セキュリティ

  • • アクセス制御の管理
  • • 監査ログの設定
  • • パッチ適用の計画
  • • 暗号化の設定

RPO と RTO

RPO(Recovery Point Objective)

許容できるデータ損失の量(時間で表現)。 障害発生時にどこまでのデータを失っても許容できるか。

例: RPO 1時間 → 最大1時間分のデータ損失を許容

RTO(Recovery Time Objective)

許容できるダウンタイム。 障害発生から復旧完了までの目標時間。

例: RTO 4時間 → 4時間以内にサービス復旧

RPO/RTO と技術選択

要件技術コスト
RPO: 日次, RTO: 数時間日次バックアップ
RPO: 分単位, RTO: 1時間PITR + レプリケーション
RPO: 0, RTO: 分単位同期レプリカ + 自動フェイルオーバー

運用チェックリスト

日次
  • • バックアップの成功確認
  • • レプリケーションラグの確認
  • • ディスク使用率の確認
週次
  • • スロークエリログのレビュー
  • • コネクション数の傾向確認
  • • アラート履歴のレビュー
月次
  • • リストアテストの実施
  • • キャパシティプランニング
  • • パフォーマンストレンド分析
四半期
  • • DR訓練(フェイルオーバーテスト)
  • • セキュリティレビュー
  • • SLO達成状況のレビュー

詳細トピック