データベース運用
バックアップ、監視、パフォーマンス管理
データベース運用はデータ保護と安定稼働を両立させることが目標。 適切なバックアップ戦略、継続的な監視、パフォーマンスチューニングが重要です。
SREの責任範囲
可用性
- • SLO/SLI の定義と監視
- • フェイルオーバーの自動化
- • 計画的メンテナンスの実施
- • インシデント対応
データ保護
- • バックアップの自動化と検証
- • リカバリ手順の整備
- • RPO/RTO の達成
- • 定期的なリストアテスト
パフォーマンス
- • クエリパフォーマンスの監視
- • リソース使用率の管理
- • スロークエリの検出と対応
- • キャパシティプランニング
セキュリティ
- • アクセス制御の管理
- • 監査ログの設定
- • パッチ適用の計画
- • 暗号化の設定
RPO と RTO
RPO(Recovery Point Objective)
許容できるデータ損失の量(時間で表現)。 障害発生時にどこまでのデータを失っても許容できるか。
例: RPO 1時間 → 最大1時間分のデータ損失を許容
RTO(Recovery Time Objective)
許容できるダウンタイム。 障害発生から復旧完了までの目標時間。
例: RTO 4時間 → 4時間以内にサービス復旧
RPO/RTO と技術選択
| 要件 | 技術 | コスト |
|---|---|---|
| RPO: 日次, RTO: 数時間 | 日次バックアップ | 低 |
| RPO: 分単位, RTO: 1時間 | PITR + レプリケーション | 中 |
| RPO: 0, RTO: 分単位 | 同期レプリカ + 自動フェイルオーバー | 高 |
運用チェックリスト
日次
- • バックアップの成功確認
- • レプリケーションラグの確認
- • ディスク使用率の確認
週次
- • スロークエリログのレビュー
- • コネクション数の傾向確認
- • アラート履歴のレビュー
月次
- • リストアテストの実施
- • キャパシティプランニング
- • パフォーマンストレンド分析
四半期
- • DR訓練(フェイルオーバーテスト)
- • セキュリティレビュー
- • SLO達成状況のレビュー