2023-08-16

SREなら知っとくべき[インフラ監視ソフト]の名前一覧と特徴を説明

[インフラ監視ソフト]

Zabbix

特徴: Zabbixは、ネットワークやサーバー、クラウドサービスなどのリソースの監視に特化したオープンソースソフトウェアです。リアルタイムの監視データ収集豊富なアラート通知機能可視化のためのダッシュボードとグラフ作成機能オープンソースで、カスタマイズが可能

Mackerel

特徴: Mackerelは、クラウド型の監視サービスであり、DevOps文化との親和性が高い特徴があります。アプリケーションパフォーマンス監視(APM)に対応自動的なインフラストラクチャのマッピングと可視化 GitHubとの連携やAPIの提供による拡張性

New Relic

特徴: New Relicは、アプリケーションパフォーマンス管理を中心とした監視ソリューションとして知られます。リアルユーザーモニタリング機能クラウドサービス、モバイルアプリ、ブラウザのパフォーマンス監視トランザクショントレーシングやエラー分析機能

Prometheus

特徴: KubernetesやCloud Native技術との連携に優れたオープンソースの監視ソフトウェアです。プル型のデータ収集方法高度なクエリ言語でのデータ分析グラフ化ツール(Grafana)との連携が容易

AWS Cloudwatch / Azure Monitor / GCP Stackdriver

特徴: これらはそれぞれのクラウドプロバイダー（AWS, Azure, GCP）が提供する統合監視サービスです。それぞれのクラウドサービスとの深い統合リソースやアプリケーションの監視、ログ管理、イベントトラッキングアラート通知やダッシュボード機能

Nagios

特徴: オープンソースの監視ソリューションとして長い歴史を持つ。プラグインによって非常に柔軟に機能を拡張できる。アラート通知、監視の視覚化、レポート生成などの基本的な機能を持つ。

Icinga

特徴: Nagiosからのフォークとして開始し、多くの改善と新機能を加えたもの。 Webベースのダッシュボード、REST APIなどの現代的な機能を提供。設定が容易で、大規模な環境でもスケーラブル。

Grafana

特徴: 主にデータの可視化に特化したツールで、多数のデータソース（Prometheus, InfluxDB, Elasticsearchなど）と統合可能。ユーザーがカスタマイズ可能なダッシュボードとアラート機能を持つ。オープンソースでありながら、エンタープライズ向けの機能も提供。

ELK Stack (Elasticsearch, Logstash, Kibana)

特徴: ログデータの収集、格納、検索、可視化のための統合ソリューション。リアルタイムのデータ分析と深い検索機能。 Kibanaを用いた視覚的なダッシュボードとアラート。

PRTG Network Monitor

特徴: ネットワーク監視を中心に、デバイス、アプリケーション、帯域幅など多岐にわたる監視が可能。 Webベースのインターフェースとカスタマイズ可能なダッシュボード。自動デバイス認識や帯域幅モニタリングなどの強力な機能を持つ。

Datadog

特徴: クラウドインフラストラクチャの監視に特化したサービス。 APM, ログ管理, リアルユーザーモニタリングなど幅広い監視機能。 200以上の統合技術と互換性あり。

2023-08-16

SREなら知っとくべき[ジョブキューシステム]の名前一覧と特徴を説明

UNIX系のジョブスケジューラ

cron

cronはUNIX系オペレーティングシステムのジョブスケジューラで、定期的に実行したいタスクを自動的に実行するためのものです。 crontabファイルに記述されたジョブを指定した時間・日にちに実行します。例: 毎日午前3時にバックアップスクリプトを実行する場合、crontabに「0 3 * * * /path/to/backup.sh」を追加します。

at

atは一度だけ特定の時間にコマンドやスクリプトを実行するためのUNIXのユーティリティです。例: 今から1時間後にシャットダウンする場合、「echo "shutdown -h now" | at now + 1 hour」と入力します。

HPC（High Performance Computing）関連

Torque

Torque (Terascale Open-source Resource and QUEue manager) はHPC環境のためのジョブスケジューリングツール。ノード間のリソースの共有やジョブの実行順を管理します。大学や研究機関でのシミュレーションなどによく使われる。

Slurm

Slurmはフリーでオープンソースのジョブスケジューラで、特に大規模なスーパーコンピュータでの利用が一般的。リソースの割り当て、ジョブのキューイング、ジョブの監視、ジョブの管理を行います。

SGE (Sun Grid Engine)

SGEは分散コンピューティング環境でのジョブのスケジューリングを行うツール。ユーザーはSGEを通してジョブを提出し、SGEはリソースの可用性に応じてジョブを実行する。

LSFはHPCとクラウド環境のためのジョブスケジューリングシステム。分散リソースの中から最も適切なものを選択し、ジョブを実行します。

一般的なジョブキューシステム

Celery

CeleryはPythonアプリケーション向けの非同期タスクキュー。例: Webアプリケーションでユーザーが大量のデータをアップロードしたとき、Celeryを使ってバックグラウンドでデータ処理を行う。

Resque

ResqueはRubyで書かれたRedisをバックエンドとするジョブキューシステム。 Webアプリケーションのバックグラウンドジョブや非同期処理に利用される。

Sidekiq

SidekiqもRubyでのバックグラウンドジョブの処理に使われる。 Resqueよりも高速で、多くの機能を持っている。

RabbitMQ

RabbitMQはメッセージキューイングシステムで、システム間のメッセージの非同期送信を行います。 Webアプリケーションやマイクロサービスの間でのデータ伝達に使われる。

Apache Kafka

Kafkaは高スループットの分散メッセージングシステム。大量のデータをリアルタイムに処理するアプリケーションや、ログの収集・解析に使われる。

クラウド関連

AWS Batch

AWS BatchはAmazon Web Servicesのジョブキューサービス。大量のジョブを自動的にスケジューリングして、最適なEC2インスタンスで実行する。

Azure Batch

Azure BatchはMicrosoft Azureのバッチ処理サービス。大規模なコンピューティングワークロードを自動的に並列実行するためのもの。

Google Cloud Tasks

Google Cloud TasksはGoogle Cloud Platformの非同期タスクキューサービス。タスクをスケジューリングして、指定した時間にCloud FunctionsやApp Engineなどで実行する。

ワークフローオーケストレーション

Apache Airflow

Apache Airflowはワークフローオーケストレーションツールで、特にデータワークフローの自動化に強みがあります。 DAG (Directed Acyclic Graph) の概念を基盤とし、タスク間の依存関係を視覚的に管理・スケジューリングすることが可能です。特徴:主にデータワークフローの自動化と管理に特化したツール。ジョブの依存関係を視覚的に表示し、複雑なワークフローの管理を容易にする。 Pythonでワークフローをプログラムとして定義し、柔軟性が高い。例: ETL処理の流れや機械学習のパイプラインをAirflowで自動化・監視する。

Luigi

Spotifyが開発したLuigiもワークフローオーケストレーションツール。 Airflowと同様にDAGの概念を使用しますが、設定や運用の方法に違いがあります。データのパイプライン処理を中心に使用される。

Prefect

Prefectは現代のデータワークフローと自動化を目的としたツール。 AirflowやLuigiに似ていますが、より柔軟で使いやすいAPIとエラーハンドリング機能を持つ。

Apache Nifi

Apache Nifiはデータの移動と変換を行うワークフローオーケストレーションツール。リアルタイムのデータフローとその監視・管理が可能。データの取り込み、変換、ルーティングに特化している。

分散システム関連

Apache Mesos

Apache Mesosは大規模なクラスタ管理を目的としたプラットフォーム。リソースの抽象化と隔離を行い、分散アプリケーションのスケジューリングを効率的に実行します。大規模なデータセンターやクラウド環境でのアプリケーションのデプロイメントを最適化するために使用される。

Apache ZooKeeper

Apache ZooKeeperは分散システムの調整サービス。クラスタ内のノード間の情報共有やリーダー選出、設定管理などを行うためのツール。大規模な分散アプリケーションの信頼性と整合性を維持するために使用される。

RDBMS内のジョブ管理

Oracle DBMS_SCHEDULER

OracleのDBMS_SCHEDULERはOracleデータベース内でのジョブのスケジューリングと実行を管理するツール。バックアップ、バッチ処理、データのクリーニングなどの定期的なタスクを自動化するために使用される。

SQL Server Agent

SQL Server AgentはMicrosoft SQL Serverに組み込まれたジョブスケジューリングツール。バックアップ、レポート生成、ETLタスクなどを指定した時間やトリガーに基づいて自動実行する。

その他のジョブ・キューシステム

Jenkins

JenkinsはオープンソースのCI/CDツール。ソフトウェアのビルド、テスト、デプロイを自動化するために使用されるが、一般的なジョブのスケジューリングや実行も可能。

Gearman

Gearmanは分散コンピューティングのためのシステム。アプリケーション間でのタスクのキューイングと実行をサポートし、異なるマシンやアプリケーション間でのタスクの分散処理を実現する。

Rundeck

ジョブの実行やスケジュール管理を中心としたオーケストレーションツール。様々な環境でのタスク実行やワークフローの自動化に利用される。特徴:ジョブのスケジュールやキュー、実行、管理を中心にしたツール。アクセスコントロール、ログの取得、アラート、監視などの機能を提供。 GUIとAPIの両方でのジョブの管理・実行が可能。

GoCD

Continuous Integration (CI) および Continuous Delivery (CD) のためのツール。 Pipelineの視覚化や構築が強み。

企業パッケージのジョブ・キューシステム

Hinemos

日本製の統合監視・ジョブ管理ツール。OSSとしても提供されており、多岐にわたるシステム管理機能を持つ。特徴: Hinemosは、ジョブ管理機能を有する総合的な監視ソリューションとして知られるオープンソースソフトウェアです。ジョブのスケジューリングや自動実行多様な監視タイプ（ログ、プロセス、パフォーマンスなど）ルールベースのアラート通知

JP1

日本のIT企業、日立製作所が提供する統合システム管理ソフト。ジョブ管理やスケジューリング、システム監視など多岐にわたる機能を持つ。

Control-M

BMC Softwareが提供するエンタープライズ向けのジョブスケジューリングソフトウェア。

Tidal Workload Automation

Cisco Systemsが所有するエンタープライズ向けのジョブスケジューリング・オーケストレーションソフトウェア。

Automic Automation

エンタープライズ向けのITプロセス自動化ソフトウェア。ジョブスケジューリングやワークロードオーケストレーション機能を持つ。

IBM Workload Scheduler

IBMが提供するジョブスケジューリングおよびワークロードオーケストレーションソフトウェア。

2023-08-16

datadogの概要から実践的な使い方までを解説します。

はじめに

AIや機械学習の急成長により、データの取り扱いはますます重要になっています。企業は、顧客データやビジネスデータ、センサーデータなどの大量のデータを扱っており、このデータを効果的に利用することがビジネス成功の鍵となります。

しかし、大量のデータを扱うには、それを効果的に監視することが不可欠です。

ここで、Datadogの監視の重要性が浮き彫りになります。Datadogは、ITインフラストラクチャ、アプリケーション、ログ、トレースなど、あらゆるデータを収集し、可視化することができます。

これにより、企業は、ビジネスの重要な指標を把握することができます。また、Datadogは、リアルタイムでデータを分析することができるため、問題が発生した場合には、素早く対応することができます。

さらに、Datadogは、人工知能や機械学習を活用して、データの分析を自動化することができます。

これにより、企業は、より迅速かつ正確にデータを分析し、問題を予測することができます。つまり、Datadogを使用することで、企業は、ビジネスの成功に必要なデータをより効果的に管理することができます。

AIや機械学習の急成長に伴い、データの重要性はますます高まっています。その中で、Datadogの監視は、企業がデータを効果的に管理し、ビジネスの成功に必要なデータを取得するために欠かせないものとなっています。

クラウド監視の基本

Datadog の概要

Datadog は、クラウドインフラストラクチャやアプリケーションの監視、トラブルシューティング、およびセキュリティのための統合的なプラットフォームです。

クラウドネイティブ環境やマイクロサービスアーキテクチャにおいて、複雑なシステムを効果的に管理するために、リアルタイムの監視と分析が求められます。

Datadog は、そのようなニーズに応えるために開発された、多機能で柔軟性の高いクラウドモニタリングソリューションです。

Datadog は、2010 年にアレクシス・ル＝クウックとオリビエ・ポマールによって設立されました。

彼らは、DevOps の文化が普及する中で、IT 環境の可視化や監視を容易にするプラットフォームが求められていることを認識しました。

これを背景に、Datadog は、多くの企業や組織において重要なインフラストラクチャの監視ツールとして普及しています。

Datadog の主な機能

監視機能

Datadog の監視機能は、リアルタイムでインフラストラクチャやアプリケーションのパフォーマンスを把握することができます。

これにより、問題が発生した際に迅速な対応が可能となり、システムダウンタイムのリスクを軽減できます。

Datadog は、メトリクス、イベント、トレース、ログなど様々なデータを収集し、これらを統合的に分析します。

これにより、システム全体の状況を把握しやすくなります。

パフォーマンス管理

Datadog は、アプリケーションパフォーマンス管理（APM）を通じて、アプリケーションのパフォーマンスを継続的に最適化します。

APM により、リクエストの応答時間やエラーレート、サービス間の相互作用など、アプリケーションの詳細な情報を把握できます。

また、APM は、マイクロサービスアーキテクチャやコンテナ化された環境にも対応しており、現代のクラウドネイティブなシステムでのパフォーマンス管理が容易になります。

インシデント管理

インシデント管理機能を利用することで、Datadog は、システムの異常や障害が発生した際に迅速に対応し、問題の解決をサポートします。

アラートや通知を設定することで、問題が発生した際に関連するメンバーに情報が届くようになります。また、インシデント管理ダッシュボードでは、発生したインシデントの状況や進捗を一元的に管理できます。

これにより、チームのコミュニケーションや問題解決の効率が向上します。

分析と可視化

Datadog は、収集したデータを分析し、リッチな可視化を提供します。ダッシュボードやグラフを使って、システム全体の状況やトレンドを一目で把握できます。また、機械学習を活用したアノマリー検出機能を使って、異常な動きを検出し、未然に問題を防ぐことができます。さらに、ログデータを活用して、システムの監査やトラブルシューティングを行うことができます。

セキュリティ監視

Datadog は、セキュリティ監視機能を通じて、システムやアプリケーションのセキュリティを強化します。リアルタイムでセキュリティイベントを収集し、分析することで、潜在的な脅威や不正アクセスを検出できます。また、コンプライアンス要件に対応した

ログ管理機能を提供し、監査やコンプライアンスの遵守が容易になります。さらに、セキュリティアラートや通知を設定することで、セキュリティインシデントが発生した際に迅速に対応が可能となります。

インテグレーション

Datadog は、豊富なインテグレーションを提供し、多様な技術スタックやツールと連携ができます。AWS、Azure、Google Cloud Platform などの主要なクラウドプロバイダや、Kubernetes、Docker などのコンテナ技術、さらには Slack や PagerDuty などのコミュニケーションツールとの統合が可能です。これにより、既存のシステムやツールとの連携をスムーズに行い、効率的な運用が実現できます。

Datadog の導入の利点

Datadog を導入することで、以下のような利点が得られます。

システムやアプリケーションのパフォーマンスやセキュリティを継続的に監視し、運用の安定性が向上します。

リアルタイムでの監視とアラート機能により、問題の発生や潜在的な脅威に迅速に対応できます。

データの分析や可視化機能を活用することで、システムの最適化やトラブルシューティングが容易になります。

豊富なインテグレーションにより、既存のツールや技術スタックとの連携がスムーズに行えます。

クラウドネイティブ環境やマイクロサービスアーキテクチャにも対応しており、現代の IT インフラストラクチャの運用管理に適しています。

クラウド監視の基本

Datadog の概要

Datadog は、そのようなニーズに応えるために開発された、多機能で柔軟性の高いクラウドモニタリングソリューションです。

Datadog は、2010 年にアレクシス・ル＝クウックとオリビエ・ポマールによって設立されました。

彼らは、DevOps の文化が普及する中で、IT 環境の可視化や監視を容易にするプラットフォームが求められていることを認識しました。

これを背景に、Datadog は、多くの企業や組織において重要なインフラストラクチャの監視ツールとして普及しています。

Datadog の主な機能

監視機能

Datadog の監視機能は、リアルタイムでインフラストラクチャやアプリケーションのパフォーマンスを把握することができます。

これにより、問題が発生した際に迅速な対応が可能となり、システムダウンタイムのリスクを軽減できます。

Datadog は、メトリクス、イベント、トレース、ログなど様々なデータを収集し、これらを統合的に分析します。

これにより、システム全体の状況を把握しやすくなります。

パフォーマンス管理

Datadog は、アプリケーションパフォーマンス管理（APM）を通じて、アプリケーションのパフォーマンスを継続的に最適化します。

APM により、リクエストの応答時間やエラーレート、サービス間の相互作用など、アプリケーションの詳細な情報を把握できます。

インシデント管理

インシデント管理機能を利用することで、Datadog は、システムの異常や障害が発生した際に迅速に対応し、問題の解決をサポートします。

これにより、チームのコミュニケーションや問題解決の効率が向上します。

分析と可視化

セキュリティ監視

インテグレーション

Datadog の導入の利点

Datadog を導入することで、以下のような利点が得られます。

システムやアプリケーションのパフォーマンスやセキュリティを継続的に監視し、運用の安定性が向上します。

リアルタイムでの監視とアラート機能により、問題の発生や潜在的な脅威に迅速に対応できます。

データの分析や可視化機能を活用することで、システムの最適化やトラブルシューティングが容易になります。

豊富なインテグレーションにより、既存のツールや技術スタックとの連携がスムーズに行えます。

クラウドネイティブ環境やマイクロサービスアーキテクチャにも対応しており、現代の IT インフラストラクチャの運用管理に適しています。

監視の設定

Datadogのエージェントのインストールと設定

Datadog エージェントは、ホスト上で実行されるソフトウェアで、システムやアプリケーションのメトリクスやイベントを収集し、Datadog プラットフォームに送信します。以下に、一般的な Linux、macOS、Windows 環境での Datadog エージェントのインストールと設定手順を解説します。

API キーの取得

まず、Datadog アカウントにログインし、API キーを取得する必要があります。これは、エージェントが Datadog プラットフォームと通信する際に使用されます。API キーは Datadog の Web UI の Integrations > APIs から取得できます。

インストール手順

Linux

ターミナルを開き、以下のコマンドを実行して Datadog エージェントをインストールします。

この際、<YOUR_API_KEY> には先ほど取得した API キーを入力してください。

DD_AGENT_MAJOR_VERSION=7 DD_API_KEY=<YOUR_API_KEY> DD_SITE="datadoghq.com" bash -c "$(curl -L https://s3.amazonaws.com/dd-agent/scripts/install_script.sh)"

インストールが完了したら、エージェントが起動していることを確認します。

sudo systemctl status datadog-agent

macOS

ターミナルを開き、以下のコマンドを実行して Datadog エージェントをインストールします。この際、<YOUR_API_KEY> には先ほど取得した API キーを入力してください。

DD_API_KEY=<YOUR_API_KEY> DD_SITE="datadoghq.com" bash -c "$(curl -L https://s3.amazonaws.com/dd-agent/scripts/install_mac_os.sh)"

インストールが完了したら、エージェントが起動していることを確認します。

sudo launchctl list | grep datadog

Windows

Datadog のダウンロードページから Windows 向けのエージェントをダウンロードしてください。

ダウンロードしたインストーラを実行し、表示される指示に従ってインストールを進めます。

この際、API キーの入力画面で先ほど取得した API キーを入力してください。

インストールが完了したら、エージェントが起動していることを確認します。

Windows サービスの一覧から DatadogAgent サービスを探し、ステータスが "Running" であることを確認します。

設定手順

Datadog エージェントの設定ファイル

Datadog エージェントの設定ファイルは、以下の場所にあります。

Linux: /etc/datadog-agent/datadog.yaml

macOS: /opt/datadog-agent/etc/datadog.yaml

Windows: C:\ProgramData\Datadog\datadog.yaml

設定ファイルを編集する際は、管理者権限が必要です。

基本設定

設定ファイルをテキストエディタで開きます。

必要に応じて、以下の設定を変更します。

api_key: API キーを指定します（インストール時に設定済みの場合は変更の必要はありません）。

site: Datadog サイトを指定します（datadoghq.com または datadoghq.eu など）。

hostname: エージェントが実行されているホストの名前を指定します。

tags: ホストに適用するタグをカンマ区切りで指定します（例: env:production,role:web）。

設定ファイルを保存し、エージェントを再起動します。

Linux:

sudo systemctl restart datadog-agent

macOS:

sudo launchctl unload /Library/LaunchDaemons/com.datadoghq.agent.plist &&

sudo launchctl load /Library/LaunchDaemons/com.datadoghq.agent.plist

Windows:

サービス管理画面から DatadogAgent サービスを再起動するか、

コマンドプロンプトで net stop datadogagent && net start datadogagent を実行します。

インテグレーション設定

Datadog エージェントは、多くのアプリケーションやサービスと統合できます。各インテグレーションの設定ファイルは、以下の場所にあります。

Linux: /etc/datadog-agent/conf.d/

macOS: /opt/datadog-agent/etc/conf.d/

Windows: C:\ProgramData\Datadog\conf.d\

各インテグレーションには、.yaml.example というサンプル設定ファイルが含まれています。

これをコピーし、.yaml という名前で設定ファイルを作成してください。

例えば、MySQL のインテグレーション設定ファイルは、mysql.yaml という名前にします。

インテグレーション設定ファイルを編集し、

適切な設定を行った後、エージェントを再起動して設定を反映させます。

エージェントが再起動されると、新しい設定が適用され、

インテグレーションのデータが Datadog プラットフォームに送信されます。

4. ダッシュボードとアラートの設定

Datadog エージェントがインストールされ、設定が完了したら、Datadog プラットフォームの Web UI でダッシュボードとアラートを設定できます。

ダッシュボードにアクセスし、新しいダッシュボードを作成します。ダッシュボードには、システムやアプリケーションのメトリクスを表示するウィジェットを追加できます。

モニターにアクセスし、新しいアラートを作成します。アラートは、特定の条件が満たされた場合に通知を受け取ることができます。例えば、CPU 使用率が一定のしきい値を超えた場合や、ディスク容量が不足している場合などです。

アラート通知の設定を行います。Datadog は、メールや Slack、PagerDuty など、さまざまな通知チャネルに対応しています。

通知設定で、通知先を設定してください。

監視対象となるリソースの設定

Datadogで監視するリソースには、以下のようなものがあります。

インフラストラクチャ：サーバー、ネットワーク、ストレージなどアプリケーション：Webサーバーやデータベースなどのサービス、APIエンドポイントなどログ：アプリケーションやシステムのログトレース：アプリケーションのトランザクションなどのトレースデータ

これらのリソースを監視することで、サーバーのパフォーマンスやアプリケーションの動作状況、ログのエラーなどを把握することができます。

監視ベストプラクティス

監視するリソースを決定する

最初に、どのリソースを監視するかを決定します。特定のアプリケーションやサービス、特定のサーバーやネットワークなど、ビジネスにとって重要なものを中心に監視することが重要です。

監視対象となる指標を選定する

次に、監視対象となる指標を選定します。例えば、サーバーのCPU使用率やメモリ使用量、ネットワークトラフィック量などがあります。また、アプリケーションのレスポンスタイムやエラー率、データベースのクエリの実行時間なども重要な指標となります。

監視対象の設定を自動化する

監視対象となるリソースの設定を自動化することで、時間と手間を節約することができます。例えば、AnsibleやPuppetを使用して、監視対象となるサーバーやアプリケーションの設定を自動化することができます。

監視対象の設定をレビューする

監視対象となるリソースの設定は、ビジネスの変化に応じて更新する必要があります。定期的に設定をレビューし、必要に応じて更新することが重要です。監視対象

監視対象となるリソースの重要度に応じてアラートを設定する

監視対象となるリソースの重要度に応じて、アラートを設定することが重要です。例えば、重要なアプリケーションやサービスに対しては、故障時には直ちに通知するようなアラートを設定することが必要です。

監視データを可視化する

監視データを可視化することで、データを分析し、問題を素早く発見することができます。Datadogでは、グラフやダッシュボードを作成することができます。これらの機能を活用して、監視データを視覚化し、問題を迅速に解決することができます。

監視データを分析する

監視データを分析することで、問題の原因を特定することができます。Datadogでは、マシン学習アルゴリズムを使用して、データを自動的に分析することができます。これにより、問題の原因を素早く特定し、迅速に解決することができます。

以上が、Datadogで監視対象となるリソースを設定する際のベストプラクティスについての解説です。監視対象となるリソースを選定し、監視対象の設定を自動化し、設定をレビューし、アラートを設定し、データを可視化し、データを分析することが重要です。Datadogを使用することで、これらの作業を効率的に行うことができます。

メトリクスの収集と分析

Datadogは、クラウドネイティブアプリケーションやインフラストラクチャの監視、トレーシング、ログ管理を提供するプラットフォームです。

Datadogの監視機能は、アプリケーションやシステムのパフォーマンスや可用性に関する情報を収集し、可視化することができます。

ここでは、Datadogで行う監視について、以下の3つの項目について手順に解説交えて清書します。

メトリクスの収集方法

Datadogは、様々なデータソースからメトリクスを収集することができます。メトリクスとは、あるシステムやアプリケーションのパフォーマンスや状態を表す数値データのことです。具体的には、CPU使用率、メモリ使用量、ネットワークトラフィック、レスポンス時間などが挙げられます。以下では、Datadogでメトリクスを収集する方法について解説します。

1.1 エージェントのインストール

Datadogエージェントをインストールすることで、サーバーやコンテナ内で稼働しているアプリケーションからメトリクスを収集することができます。Datadogエージェントは、Linux、Windows、MacOSなどのオペレーティングシステムに対応しています。

エージェントのインストールには、以下の手順が必要です。

DatadogのWebサイトにアクセスして、アカウントを作成する。

インストールコマンドを生成し、サーバーに転送する。

インストールコマンドを実行して、エージェントをインストールする。

1.2 APMの設定

APM(Application Performance Monitoring)を使用することで、アプリケーション内部での処理時間や関数の呼び出し回数などを収集することができます。

APMを使用する場合は、DatadogエージェントとAPMライブラリをインストールし、コードにトレーサーを追加する必要があります。

以下は、JavaでのAPMライブラリの設定例です。

DatadogのWebサイトにアクセスして、アカウントを作成する。 Java Agentをダウンロードし、クラスパスに追加する。 APMライブラリをダウンロードし、プロジェクトに追加する。トレーサーをコードに追加する。

以下は、Javaでのトレーサーの追加例です。

import datadog.trace.api.Tracer;

import datadog.trace.api.TracerBuilder;




Tracer tracer = new TracerBuilder()

                .withServiceName("my-java-service")

                .withAgentHost("localhost")

                .withAgentPort(8126)

                .build();




// トレーサーを使用したコードの処理

try (Scope scope = tracer.buildSpan("my-java-span").startActive(true)) {

    // トレースする処理

}

1.3 インテグレーションの設定

Datadogは、さまざまなサービスやアプリケーションとのインテグレーションを提供しています。インテグレーションを使用することで、サービスやアプリケーションからのメトリクスを簡単に収集することができます。インテグレーションの設定方法は、Datadogのドキュメントを参照してください。

メトリクスの分析方法

Datadogでは、収集したメトリクスを可視化するダッシュボードやアラートを作成することができます。以下では、Datadogでメトリクスを分析する方法について解説します。

2.1 ダッシュボードの作成

ダッシュボードを作成することで、収集したメトリクスをグラフやテーブルで表示することができます。ダッシュボードは、複数のウィジェットを組み合わせて構成されます。ウィジェットには、グラフ、テーブル、アラートなどがあります。

ダッシュボードの作成手順は以下の通りです。

DatadogのWebサイトにアクセスして、ダッシュボードを作成する。

ウィジェットを追加し、表示するメトリクスやグラフの種類を選択する。

ダッシュボードを保存し、必要に応じて共有する。

2.2 アラートの設定

アラートを設定することで、特定の条件が発生した場合に通知を受けることができます。アラートは、メトリクスのしきい値を設定することでトリガーされます。通知方法は、メールやSlackなどから選択できます。

アラートの設定手順は以下の通りです。

DatadogのWebサイトにアクセスして、アラートを作成する。

アラートをトリガーするメトリクスや条件を設定する。

カスタムメトリクスの作成

Datadogでは、カスタムメトリクスを作成することができます。カスタムメトリクスとは、特定のアプリケーションやシステムに固有のメトリクスのことで、収集したいデータを自由に定義することができます。以下では、Datadogでカスタムメトリクスを作成する方法について解説します。

3.1 ストレージメトリクスの作成

ストレージメトリクスは、アプリケーションやシステムが保持しているデータを表すメトリクスです。ストレージメトリクスを作成するには、以下の手順が必要です。

DatadogのWebサイトにアクセスして、カスタムメトリクスを作成する。

ストレージメトリクスの名前とタイプを設定する。

ストレージメトリクスをアプリケーションやシステムに統合する。

以下は、Pythonでのストレージメトリクスの作成例です。

Copy code

from datadog import DogStatsd




statsd = DogStatsd()




statsd.increment('my.custom.metric')

3.2 イベントメトリクスの作成

イベントメトリクスは、アプリケーションやシステムで発生したイベントを表すメトリクスです。イベントメトリクスを作成するには、以下の手順が必要です。

DatadogのWebサイトにアクセスして、カスタムメトリクスを作成する。

イベントメトリクスの名前とタグを設定する。

イベントメトリクスをアプリケーションやシステムに統合する。

以下は、Pythonでのイベントメトリクスの作成例です。

from datadog import api




title = 'My custom event'

text = 'Something happened'

tags = ['environment:production']




api.Event.create(title=title, text=text, tags=tags)

以上が、Datadogで行う監視についての手順解説でした。

Datadogを活用して、アプリケーションやシステムのパフォーマンスや可用性をモニタリングし、問題を素早く解決することができます。

—

Datadogでのログの収集・分析方法

Datadogは、クラウドネイティブアプリケーションやインフラストラクチャの監視、トレーシング、ログ管理を提供するプラットフォームです。Datadogのログ管理機能は、アプリケーションやシステムのログデータを収集し、可視化することができます。

ログの収集方法

Datadogでは、様々なデータソースからログデータを収集することができます。ログデータとは、アプリケーションやシステムが出力する詳細な情報のことで、エラーメッセージやトランザクションのログなどが挙げられます。以下では、Datadogでログデータを収集する方法について解説します。

1.1 エージェントのインストール

Datadogエージェントをインストールすることで、サーバーやコンテナ内で稼働しているアプリケーションからログデータを収集することができます。Datadogエージェントは、Linux、Windows、MacOSなどのオペレーティングシステムに対応しています。

エージェントのインストールには、以下の手順が必要です。

DatadogのWebサイトにアクセスして、アカウントを作成する。インストールコマンドを生成し、サーバーに転送する。インストールコマンドを実行して、エージェントをインストールする。

1.2 インテグレーションの設定

Datadogは、さまざまなサービスやアプリケーションとのインテグレーションを提供しています。インテグレーションを使用することで、サービスやアプリケーションからのログデータを簡単に収集することができます。インテグレーションの設定方法は、Datadogのドキュメントを参照してください。

1.3 サードパーティ製ログ収集ツールの使用

Datadogは、多くのサードパーティ製ログ収集ツールとの統合を提供しています。

これらのツールを使用することで、Datadogプラットフォームでログデータを管理することができます。

以下は、一例としてFluentdとの統合方法を示します。

DatadogのWebサイトにアクセスして、Fluentdのインテグレーションを有効化する。

2. Fluentdをインストールし、設定ファイルを編集する。

Fluentdの設定ファイルで、DatadogのAPIキーとアプリケーションキーを設定する。

Fluentdを再起動して、ログデータを収集する。

ログの分析方法

Datadogでは、収集したログデータを可視化するダッシュボードやアラートを作成することができます。

以下では、Datadogでログデータを分析する方法について解説します。

2.1 ダッシュボードの作成

ダッシュボードを作成することで、収集したログデータをグラフやテーブルで表示することができます。ダッシュボードは、複数のウィジェットを組み合わせて構成されます。ウィジェットには、グラフ、テーブル、アラートなどがあります。

ダッシュボードの作成手順は以下の通りです。

DatadogのWebサイトにアクセスして、ダッシュボードを作成する。ウィジェットを追加し、表示するログデータやグラフの種類を選択する。ダッシュボードを保存し、必要に応じて共有する。

2.2 アラートの設定

アラートを設定することで、特定の条件が発生した場合に通知を受けることができます。アラートは、ログデータのキーワードやフィルターを設定することでトリガーされます。通知方法は、メールやSlackなどから選択できます。

アラートの設定手順は以下の通りです。

DatadogのWebサイトにアクセスして、アラートを作成する。

アラートをトリガーするログデータのキーワードやフィルターを設定する。

通知方法を設定し、アラートを保存する。

カスタムログの作成

Datadogでは、カスタムログを作成することができます。カスタムログとは、特定のアプリケーションやシステムに固有のログデータのことで、収集したいデータを自由に定義することができます。以下では、Datadogでカスタムログを作成する方法について解説します。

3.1 ソースカテゴリの作成

ソースカテゴリは、カスタムログを作成する際に使用するカテゴリ名のことで、ログデータの送信元を識別するために使用されます。

以下は、Datadogでソースカテゴリを作成する手順です。

DatadogのWebサイトにアクセスして、ソースカテゴリを作成する。

ソースカテゴリの名前を設定する。

必要に応じてタグを追加し、ソースカテゴリを保存する。

3.2 ログの送信

Datadogでは、複数の方法でログデータを送信することができます。以下は、一例としてPythonでログデータを送信する方法です。

from datadog import initialize, api




options = {

    'api_key': 'YOUR_API_KEY_HERE',

    'app_key': 'YOUR_APP_KEY_HERE'

}




initialize(**options)




api.Event.create(

    title='Example log',

    text='This is an example log message',

    tags=['source_category:my_custom_logs']

)

3.3 ログのフィルタリング

Datadogでは、フィルタを使用して、収集するログデータを制限することができます。フィルタは、ログデータの内容やタグを基に設定することができます。以下は、一例としてPythonでフィルタを設定する方法です。

from datadog import initialize, api




options = {

    'api_key': 'YOUR_API_KEY_HERE',

    'app_key': 'YOUR_APP_KEY_HERE'

}




initialize(**options)




api.Event.create(

    title='Example log',

    text='This is an example log message',

    tags=['source_category:my_custom_logs', 'environment:production']

    host='webserver-01',

)

以上が、Datadogで行う監視についての手順解説でした。Datadogを活用して、アプリケーションやシステムのログデータを収集し、可視化することで、問題を素早く特定し、解決することができます。

—---

Datadogのトレースの収集と分析

Datadogは、分散システムの監視、トレーシング、ログ管理を提供するプラットフォームです。

トレーシングとは、分散システムの各コンポーネント間で発生するリクエストのパスを可視化し、システム全体のパフォーマンスを把握することができます。

トレースの収集方法

Datadogでは、トレースを収集することで、分散システム内のリクエストのパスを追跡することができます。

トレースを収集するには、以下の手順が必要です。

Datadogエージェントをインストールする。

アプリケーションにDatadogトレーサーを統合する。

リクエストをトレースする。

以下では、Pythonでのトレースの収集方法について解説します。

1.1 エージェントのインストール

Datadogエージェントをインストールすることで、サーバーやコンテナ内で稼働しているアプリケーションからトレースデータを収集することができます。Datadogエージェントは、Linux、Windows、MacOSなどのオペレーティングシステムに対応しています。

エージェントのインストールには、以下の手順が必要です。

DatadogのWebサイトにアクセスして、アカウントを作成する。

インストールコマンドを生成し、サーバーに転送する。

インストールコマンドを実行して、エージェントをインストールする。

1.2 Datadogトレーサーの統合

Datadogトレーサーをアプリケーションに統合することで、トレースデータを収集することができます。

Datadogトレーサーは、Python、Java、Ruby、Goなどのプログラミング言語に対応しています。

トレーサーの統合には、以下の手順が必要です。

Datadogトレーサーライブラリをインストールする。

アプリケーションの起動時にトレーサーライブラリを初期化する。

アプリケーションのコードにトレーススパンを追加する。

以下は、Pythonでのトレーサーの統合例です。

from ddtrace import tracer




tracer.configure(hostname='agent.datadoghq.com', port=8126)




.trace("example.operation", service="my-service") as span:

span.set_tag("example.tag", "example_value")

# do something

1.3 リクエストのトレース

トレーサーを統合したアプリケーションにリクエストを送信することで、トレースデータを収集することができます。トレースデータは、Datadogエージェントに送信され、Datadogプラットフォームで可視化することができます。

2. トレースの分析方法

Datadogでは、収集したトレースデータを可視化するダッシュボードやアラートを作成することができます。以下では、Datadogでトレースデータを分析する方法について解説します。

2.1 トレースの可視化

Datadogでは、トレースデータを可視化することができます。トレースデータをグラフィカルに表示することで、分散システムのリクエストのパスを把握することができます。

以下は、Datadogでトレースデータを可視化する手順です。

DatadogのWebサイトにアクセスして、ダッシュボードを作成する。トレースデータを表示するグラフやテーブルを追加する。ダッシュボードを保存し、必要に応じて共有する。

2.2 アラートの設定

アラートを設定することで、特定の条件が発生した場合に通知を受けることができます。アラートは、トレースデータのキーワードやフィルターを設定することでトリガーされます。通知方法は、メールやSlackなどから選択できます。

アラートの設定手順は以下の通りです。

DatadogのWebサイトにアクセスして、アラートを作成する。アラートをトリガーするトレースデータのキーワードやフィルターを設定する。通知方法を設定し、アラートを保存する。

分散トレースの可視化

Datadogでは、分散システム内の各コンポーネント間で発生するリクエストのパスを可視化することができます。以下は、Datadogで分散トレースを可視化する手順です。

DatadogのWebサイトにアクセスして、ダッシュボードを作成する。 Trace Searchを使用して、リクエストのパスを特定する。リクエストのパスを可視化するグラフを作成する

グラフをダッシュボードに追加し、必要に応じて共有する。

以下は、Trace Searchを使用して分散トレースを可視化する手順です。

DatadogのWebサイトにアクセスして、Trace Searchを開く。

検索クエリを入力し、検索を実行する。

検索結果を表示し、パスを特定する。

パスを可視化するグラフを作成する。

グラフをダッシュボードに追加し、必要に応じて共有する。

Trace Searchを使用することで、分散システム内のリクエストのパスを特定し、トラブルシューティングに役立てることができます。

以上が、Datadogで行う監視について、トレースの収集方法、トレースの分析方法、分散トレースの可視化についての手順解説でした。Datadogを活用して、分散システムのパフォーマンスを把握し、問題を素早く特定し、解決することができます。

2023-08-16

AZURE関数アプリで月額使用コストをslack通知するプログラムを開発する手順を解説！

ハンズオン

注意: Slack Webhook URLやAzureのAPIキーなどの秘密情報は公開しないようにしてください。AzureのKey Vaultや環境変数などのセキュアな方法を利用してこれらの情報を管理してください。

0. Azure関数アプリ開発のローカル環境セットアップ

Azure FunctionsのNode.js用のnpmパッケージをインストールします。

npm install azure-functions

1. azure portalでのAzure関数アプリにコード挿入＋実行してみる。

以下はwebhookurlを入れたらそこにhelloworldが送られる。

const axios = require('axios');

module.exports = async function (context, req) {
    context.log('JavaScript HTTP trigger function processed a request.');

    const slackWebhookUrl = "url";
    if (!slackWebhookUrl) {
        context.log.error("Environment variable 'SLACK_WEBHOOK_URL' is not set.");
        context.res = {
            status: 400,
            body: "Environment variable 'SLACK_WEBHOOK_URL' is not set."
        };
        return;
    }

    try {
        const message = "Hello, Slack!";
        context.log(`Sending message to Slack: ${message}`);

        const response = await axios.post(slackWebhookUrl, {
            text: message
        });

        context.log("Successfully sent message to Slack.");

        context.res = {
            body: "Message sent successfully!"
        };
    } catch (error) {
        context.log.error(`Failed to send message to Slack. Error: ${error}`);
        context.res = {
            status: 500,
            body: `Failed to send message to Slack. Error: ${error}`
        };
    }
};

2. 月額使用コストを取得する前準備：Azure AD トークンを取得するための準備

Azure AD トークンを取得するための準備: Azure Portal で Azure Active Directory に移動します。アプリの登録に移動し、新しいアプリを登録します。アプリを登録したら、概要タブからアプリケーション (クライアント) ID とディレクトリ (テナント) ID をメモします。証明書とシークレットタブに移動し、新しいクライアントシークレットを追加します。このシークレット値もメモしておきます。 APIのアクセス許可タブで Azure Service Management の user_impersonation のアクセス許可を追加します。
Azure 関数アプリの環境変数設定: Azure Portal の Function App の設定で以下の環境変数を設定します:

TENANT_ID: 上でメモしたディレクトリ (テナント) ID CLIENT_ID: 上でメモしたアプリケーション (クライアント) ID CLIENT_SECRET: 上でメモしたクライアントシークレットの値 SUBSCRIPTION_ID: あなたの Azure サブスクリプション ID RESOURCE_GROUP_ID: コスト情報を取得するリソースグループの ID

コードの更新 (index.js):

const axios = require('axios');

async function getAzureToken(tenantId, clientId, clientSecret) {
    const tokenUrl = `https://login.microsoftonline.com/${tenantId}/oauth2/token`;

    const response = await axios.post(tokenUrl, 'grant_type=client_credentials&client_id=' + clientId + '&client_secret=' + clientSecret + '&resource=https://management.azure.com/');
    
    return response.data.access_token;
}

async function getCost(accessToken, subscriptionId, resourceGroupId) {
    const startDate = new Date();
    startDate.setMonth(startDate.getMonth() - 1);
    const endDate = new Date();

    const apiUrl = `https://management.azure.com/subscriptions/${subscriptionId}/resourceGroups/${resourceGroupId}/providers/Microsoft.CostManagement/query?api-version=2019-10-01`;

    const response = await axios.post(apiUrl, {
        type: 'ActualCost',
        timeframe: 'Custom',
        dataSet: {
            granularity: 'Monthly',
            aggregation: {
                totalCost: {
                    name: 'Cost',
                    function: 'Sum'
                }
            }
        },
        timePeriod: {
            from: startDate.toISOString().split('T')[0],
            to: endDate.toISOString().split('T')[0]
        }
    }, {
        headers: {
            'Authorization': `Bearer ${accessToken}`
        }
    });

    return response.data.properties.rows[0][0];
}

module.exports = async function (context, req) {
    context.log('JavaScript HTTP trigger function processed a request.');

    const slackWebhookUrl = process.env["SLACK_WEBHOOK_URL"];
    const tenantId = process.env["TENANT_ID"];
    const clientId = process.env["CLIENT_ID"];
    const clientSecret = process.env["CLIENT_SECRET"];
    const subscriptionId = process.env["SUBSCRIPTION_ID"];
    const resourceGroupId = process.env["RESOURCE_GROUP_ID"];

    try {
        const accessToken = await getAzureToken(tenantId, clientId, clientSecret);
        const cost = await getCost(accessToken, subscriptionId, resourceGroupId);

        const message = `The total cost for the resource group in the past month is: $${cost}`;
        context.log(message);

        const response = await axios.post(slackWebhookUrl, {
            text: message
        });

        context.log("Successfully sent message to Slack.");

        context.res = {
            body: "Message sent successfully!"
        };
    } catch (error) {
        context.log.error(`Failed to retrieve cost or send message to Slack. Error: ${error}`);
        context.res = {
            status: 500,
            body: `Failed to retrieve cost or send message to Slack. Error: ${error}`
        };
    }
};

2023-08-16

SREの定義と役割の概要・クラウド技術の進化とSREの重要性を解説！！

1. イントロ

1-1. SREの定義と役割の概要

SRE（Site Reliability Engineering）とは、システムの信頼性や性能、効率を維持・向上させるための技術的アプローチとしてGoogleが提唱したものです。以下が主な役割と特徴です。

システムの監視: サービスやシステムの健全性を継続的に監視し、障害や異常を検知します。例: Google CloudのStackdriverやAWSのCloudWatchのようなツールを使用しての監視活動
インシデント管理: 障害が発生した際の迅速な対応や原因分析、再発防止策の策定。例: PagerDutyやOpsgenieといったアラート管理ツールを用いての対応
リリースと変更管理: システムの変更や新機能のリリースをスムーズかつ安全に行う。例: デプロイプロセスの自動化やカナリアリリースの導入

1-2. クラウド技術の進化とSREの重要性

クラウド技術の登場と進化は、ITインフラの運用や開発の方法を大きく変えました。以下はその進化のポイントとSREの関連性についてです。

スケーラビリティ: クラウドは瞬時にリソースを増減させることができるため、大規模なトラフィックや処理にも柔軟に対応可能。例: AWSのAuto ScalingやGCPのManaged Instance Groupsを利用したスケーリング
グローバルな展開: クラウドサービスは世界中のリージョンやデータセンターに分散されており、グローバルなサービス提供が容易に。例: AzureのGlobal Traffic Managerでのトラフィック分散
このようなクラウドの特性を最大限に活用し、同時にシステムの信頼性や性能を保つために、SREの役割は非常に重要となっています。

2. 基本的なSREのスキルと知識

1. システム設計の理解

SREはシステム全体の動作と信頼性を保証する役割を持っています。そのため、システム設計の基本的な原則やアーキテクチャの理解は不可欠です。

冗長性: システムの一部が障害に遭遇した場合でも、全体が正常に動作し続ける能力。例: マルチリージョン展開、ロードバランサーの使用など
スケーラビリティ: 変動するトラフィックや要求に対応できる設計。例: マイクロサービスアーキテクチャ、オートスケーリングの適用
セキュリティ: システムやデータを悪意のある攻撃から守るための設計。例: ファイアウォールの設置、暗号化の適用

2-2. プログラミング・スクリプトスキル

SREは自動化やツールの開発・カスタマイズを行うため、プログラミングやスクリプトのスキルが要求されます。

自動化: 手動での運用作業を最小限にし、効率性を向上させる。例: TerraformやAnsibleを使用したインフラのコード化
カスタムツールの開発: チームのニーズに合わせたツールやスクリプトの開発。例: PythonやGoを使用した監視ツールの開発

2-3. 監視とアラートの原則

システムの健全性や性能を継続的に監視し、問題が発生した際には迅速にアラートを受け取ることが重要です。

監視の範囲: システム全体をカバーする監視ポイントの設定。例: CPU使用率、レスポンス時間、エラーレートなど
アラートのしきい値: 適切なしきい値を設定し、過度なアラートや逃したアラートを防ぐ。例: 平均レスポンス時間が500msを超えた場合にアラート

2-4. インシデント管理とトラブルシューティング

システムに問題が発生した際の迅速な対応と、原因の特定・修正を行うスキルが求められます。

インシデントレスポンス: 問題が発生した際の即時対応とコミュニケーションの確立。例: On-callエンジニアのローテーション、ステータスページの更新
トラブルシューティング: 問題の原因を特定し、修正や再発防止策を策定。例: ログの解析、システムの診断ツールの使用

3. クラウドプラットフォームとSRE

3-1. 共通のクラウドの原則と特徴

オンデマンド自己サービス: 必要に応じてリソースを追加・削除できる。

ワイドネットワークアクセス: グローバルなアクセスが可能。

リソースのプーリング: マルチテナントモデルを使用して効率的なリソースの使用を可能にする。

迅速な弾力性: 需要に応じてスケールアップ・ダウンが可能。

測定されたサービス: 使用量に基づいて課金される。

エラスティシティ: クラウドプラットフォームは需要に応じてリソースを増減させる能力を持っています。

分散アーキテクチャ: グローバルなリージョンやゾーンに分散したデータセンターでの運用が可能。

サービス志向: 従来のハードウェアベースのリソースではなく、APIを通じてアクセスされるサービスとしてのリソース提供。

3-2. 各プラットフォーム(Azure, AWS, GCP)のSREに関する特色

Azure: 企業向けの強力な統合サービスとセキュリティを強調。Microsoft製品との統合が強化されている。
AWS: 市場のリーダーとして幅広いサービスを提供。豊富なドキュメンテーションとコミュニティが存在。
GCP: Googleが持つ強力なデータ解析とAIの能力を強調。シンプルな価格モデルやユーザーフレンドリーなインターフェースが特徴。

4. 各クラウドプラットフォームのツールと技術

Azure

Azure Monitor: Azureリソースの監視、パフォーマンスデータの収集、およびアラートの設定を提供。 Azure Security Center: セキュリティポリシーの適用やリスクの評価、脅威対策を提供。 Azure DevOps: コードリポジトリ、CI/CDパイプライン、アーティファクトリポジトリなど、DevOpsライフサイクル全体のツールを提供。

AWS

Amazon CloudWatch: AWSリソースとアプリケーションの監視を提供。 AWS X-Ray: アプリケーションの実行時の問題やパフォーマンスボトルネックを特定・分析。 AWS CloudTrail: AWSアカウントのアクション履歴を記録・監視。

GCP

Stackdriver: GCPリソースの監視、ロギング、トレーシングを提供。現在はGoogle Cloud Operations Suiteの一部となっている。 Google Cloud Operations Suite: GCPの監視、ロギング、トレーシング、デバッグ、そしてAPM

5. SREの実践例

5-1. SLI, SLO, SLAの定義と管理

SLI (Service Level Indicator): サービスの品質や健康度を示す指標。例えば、HTTPリクエストの応答時間やサービスの可用性などが考えられます。
SLO (Service Level Objective): SLIに関連する目標値。たとえば、HTTPリクエストの応答時間の99%が1秒未満であること、サービスの月平均可用性が99.9%であることなど。
SLA (Service Level Agreement): サービス提供者と顧客の間で合意されたサービスレベルの契約。SLOの達成が保証され、達成できなかった場合のペナルティや補償が含まれることが多い。

5-2. 管理の実践例:

SLIの定義: システムのモニタリングツールを使用して、リクエスト応答時間やエラーレートなどの指標を収集します。
SLOの設定: 収集したデータを元に、具体的な目標値を設定します。例：「99.9%のリクエスト応答時間が1秒未満であること」
SLAの交渉: 顧客との間で、サービスの品質に関する契約を結びます。

5-3. エラーバジェットとリリース管理

エラーバジェット: SLOを満たすための「余裕」や「許容範囲」。SLOが99.9%の可用性を目指す場合、エラーバジェットは0.1%となります。

5-4. リリース管理の実践例:

エラーバジェットの使用: リリースの頻度やサイズをエラーバジェットに基づいて調整します。エラーバジェットが少ない場合、リリースを控えめに行ったり、リスクの少ない変更のみを適用します。
エラーバジェットのオーバー: エラーバジェットを超えた場合、新しいリリースを一時停止し、原因を分析して問題を解決します。
カオスエンジニアリングの導入カオスエンジニアリングは、意図的にシステムに障害を起こして、その耐久性や復旧能力をテストする手法です。

5-5. カオスエンジニアリング導入の実践例:

スコープの定義: テストの対象となるサービスやリソースを特定します。
障害の導入: 一定の時間や条件で、サービスの一部を停止したり、ネットワークの遅延を導入したりします。
監視と分析: システムの挙動を監視し、期待される復旧動作や影響を確認します。
結果の報告: テストの結果や発見した問題点を文書化し、チームや組織に共有します。例: Netflixの「Chaos Monkey」は、ランダムにインスタンスを終了することで、システムの耐障害性を確認するツールです。

6. チームワークとカルチャー

6-1. SREと開発チームの協力

SREと開発チームの関係性: SRE（Site Reliability Engineering）チームと開発チームは、両者が連携することで、高いパフォーマンスと信頼性を持つサービスを提供するためのキーパートナーとなります。開発チームは新しい機能や改善を迅速にリリースすることを重視する一方、SREチームはシステムの信頼性や可用性、パフォーマンスの維持と向上を目指します。

6-2. 協力の重要性:

これらの目標は時折相反する場面がありますが、両チームが連携し、共通の目標に向かって努力することで、バランスの取れた、効果的なサービス展開が可能となります。

実践例:
コードレビューの共有: SREはプロダクション環境にデプロイされる前のコードレビューに参加し、パフォーマンスやセキュリティの観点からのフィードバックを提供することで、問題の早期発見と修正を促進します。定期的なミーティング: SREと開発チームは定期的にミーティングを設定し、システムの健全性、新しいリリースの計画、エラーバジェットの使用状況などを共有します。
ブレームレスポストモーテムの文化ブレームレスポストモーテムの定義: 障害やインシデントが発生した後、その原因や経緯、そして今後の対策を検討する会議や文書のこと。ここでの「ブレームレス」とは、個人の責任を問うのではなく、システムやプロセスの改善点を中心に議論を進めることを指します。

6-3. 文化の重要性:

学び: インシデントから学ぶことで、同じ問題の再発を防ぎ、システムの信頼性を向上させることができます。
開放性: チームが安全な環境で問題を共有し、開かれた議論を行うことで、組織全体の成長と進化が促進されます。
実践例:

Googleや多くのテクノロジー企業は、ブレームレスポストモーテムを文化として導入しており、障害が発生した際にはすぐにポストモーテムミーティングを開催し、結果を組織全体と共有しています。継続的な学びと成長の重要性

継続的な学びとは: 新しい知識やスキルを習得し、現在の職務や役割に適用すること。また、未来の可能性や機会に対応するための準備としても行われます。
重要性: 技術の進化: テクノロジーの領域では、新しい技術や手法が日々登場しています。これに追従し、最新の知識を持っていることは、競争力を維持し向上させるために不可欠です。チームの協力: 互いに知識や経験を共有することで、チーム全体の能力や効果が向上します。実践例:
技術勉強会: 定期的に技術勉強会を開催し、新しい技術やツールについて学ぶ。外部のカンファレンスやセミナーへの参加: 最新のトレンドや技術を学び、他の組織や専門家とのネットワークを築く。

7. キャリアと将来性

7.-1 SREとしてのキャリアパス

初級 SRE: 新しいSREは、通常、経験豊富なメンバーのもとでオンボーディングを受けます。彼らの主な役割は監視、アラート応答、簡単なトラブルシューティングなどの日常的なタスクに関わることです。
中級 SRE: 経験を積むと、システムの設計やアーキテクチャに関する課題、大規模な障害のトラブルシューティング、システムの最適化など、より複雑なタスクを担当するようになります。
上級 SRE/リードSRE: リーダーシップの役割を担い、チームの方針や戦略を策定することに関わるようになります。また、クロス機能的なチームや組織とのコラボレーションを主導し、大規模なプロジェクトを成功に導く責任を持つことが期待されます。
SREマネージャー: SREチームの管理や組織全体の信頼性の戦略を策定・実施します。マネージャーとして、チームの成長と育成、リソースの配分、予算管理なども行います。

7-2.今後の技術的トレンドとSREの進化

1. 自動化の増加: 自動化ツールやテクノロジーは進化を続け、SREはこれらのツールを使用してルーチンタスクの効率を向上させることができます。
1. AIと機械学習の導入: AI技術を利用して、異常検知、トラブルシューティング、自動修復などのタスクをより効果的に行うことが期待されます。
1. セキュリティの統合: セキュリティはますます重要になり、SREはDevSecOpsの考え方を採用して、開発と運用のライフサイクル全体でセキュリティを確保することが求められます。

8. コンクルージョン

8-1.SREの役割と価値の再確認

SREの主な目的は、システムの信頼性、可用性、およびパフォーマンスを最大化することです。

これには、監視、インシデント管理、トラブルシューティング、自動化、最適化などのタスクが含まれます。

SREはまた、開発チームと協力して、新しいリリースの安定性を確保し、システムの持続的な改善をサポートします。

8-2.クラウドテクノロ ジーとの関連性の重要性

クラウド技術は、企業がインフラを迅速に展開・拡張し、コストを最適化する手段を提供します。

SREは、クラウドの機能やサービスを最大限に活用して、信頼性と効率を向上させる役割を果たします。

また、クラウド技術の進化に伴い、SREは新しいツールやサービスを採用し、システムの運用を最適化する必要があります。

2023-05-08

ステップ2. Vagrantを使って仮想マシンを立ち上げ、ansibleでrailsアプリケーションをビルドする

Vagrantfileの作成
まずは、先ほど作成したVagrantfileを以下のように変更してください。

ruby

Vagrant.configure("2") do |config|
config.vm.box = "ubuntu/bionic64"
config.vm.network "forwarded_port", guest: 3000, host: 3000

config.vm.provider "virtualbox" do |vb|
vb.memory = "1024"
end

config.vm.provision "ansible" do |ansible|
ansible.playbook = "playbook.yml"
ansible.become = true
end
end

これにより、Ansibleが使用できるようになります。

Ansibleのインストール
Ansibleをインストールするために、以下のコマンドを実行してください。

sql
sudo apt-get update
sudo apt-get install -y ansible
playbook.ymlの作成
以下のコマンドを実行して、playbook.ymlを作成します。

bash
touch playbook.yml
playbook.ymlには、以下のように記述します。

yaml
---
- hosts: all
become: yes

tasks:
- name: Install required packages
apt: name={{ item }} state=latest
with_items:
- git
- libssl-dev
- libreadline-dev
- zlib1g-dev
- libsqlite3-dev
- nodejs
- postgresql
- libpq-dev

- name: Install Ruby using rbenv
git: repo=https://github.com/rbenv/rbenv.git dest=~/.rbenv
register: rbenv_install
become_user: vagrant
environment:
PATH: "{{ ansible_env.PATH }}:~/.rbenv/bin"
changed_when: rbenv_install.changed

- name: Update ~/.bashrc for rbenv
lineinfile: path=~/.bashrc line="{{ item }}"
with_items:
- 'export PATH="$HOME/.rbenv/bin:$PATH"'
- 'eval "$(rbenv init -)"'
become_user: vagrant
environment:
PATH: "{{ ansible_env.PATH }}:~/.rbenv/bin"

- name: Install Ruby
shell: rbenv install 3.0.1
become_user: vagrant
environment:
PATH: "{{ ansible_env.PATH }}:~/.rbenv/bin"
when: rbenv_install.changed

- name: Set global Ruby version
shell: rbenv global 3.0.1
become_user: vagrant
environment:
PATH: "{{ ansible_env.PATH }}:~/.rbenv/bin"

- name: Install Bundler
shell: gem install bundler
become_user: vagrant
environment:
PATH: "{{ ansible_env.PATH }}:~/.rbenv/bin"

- name: Create database
shell: createdb -U myapp -h localhost myapp_production
become_user: postgres

- name: Clone Rails application from repository
git: repo=<repository-url> dest=~/myapp
become_user: vagrant

- name: Install Rails application dependencies
shell: bundle install --path vendor/bundle
args:
chdir

Railsアプリケーションのデプロイ
以下の手順で、Railsアプリケーションをデプロイします。

playbook.ymlと同じディレクトリに、deploy.ymlという名前のファイルを作成します。

bash
touch deploy.yml
deploy.ymlには、以下のように記述します。
yaml
Copy code
---
- hosts: all
become: yes

tasks:
- name: Install Bundler
shell: gem install bundler
become_user: vagrant
environment:
PATH: "{{ ansible_env.PATH }}:~/.rbenv/bin"

- name: Install Rails application dependencies
shell: bundle install --path vendor/bundle
args:
chdir: ~/myapp

- name: Create database tables
shell: bundle exec rails db:migrate RAILS_ENV=production
args:
chdir: ~/myapp

- name: Start Rails server
shell: bundle exec rails server -d -b 0.0.0.0 -e production
args:
chdir: ~/myapp
playbook.ymlと同じディレクトリに、vars.ymlという名前のファイルを作成します。

bash
touch vars.yml

vars.ymlには、以下のように記述します。

yaml
---
repository_url: https://github.com//.git
playbook.ymlを実行して、Ansibleによるプロビジョニングを実行します。

css
vagrant up --provision

playbook.ymlの実行が終了したら、以下のコマンドを実行して、仮想マシンにSSH接続します。

Copy code
vagrant ssh
仮想マシンのコマンドラインで、以下のコマンドを実行して、Railsアプリケーションをデプロイします。

css
ansible-playbook deploy.yml -e @vars.yml

これにより、GitHubのリポジトリからRailsアプリケーションがダウンロードされ、必要なパッケージがインストールされます。
また、データベースのテーブルが作成され、Railsサーバーが起動されます。

2023-05-08

ステップ1. Vagrantを使って仮想マシンを立ち上げ、Railsを構築し、githubにpushする手順

Vagrantのインストール

まずは、Vagrantをインストールしてください。以下のサイトから、OSに合わせたインストーラーをダウンロードして、インストールしてください。

https://www.vagrantup.com/downloads

VirtualBoxのインストール

次に、VirtualBoxをインストールしてください。以下のサイトから、OSに合わせたインストーラーをダウンロードして、インストールしてください。

https://www.virtualbox.org/wiki/Downloads

Vagrantfileの作成

Vagrantfileを作成するために、コマンドプロンプトまたはターミナルを起動し、任意のディレクトリに移動します。Vagrantfileは、以下のように記述します。

ruby

Vagrant.configure("2") do |config|
  config.vm.box = "ubuntu/bionic64"
  config.vm.network "forwarded_port", guest: 3000, host: 3000

  config.vm.provider "virtualbox" do |vb|
    vb.memory = "1024"
  end
end

これは、VirtualBoxをプロバイダーとして使用して、Ubuntu 18.04 LTSを起動する設定になっています。また、ホスト側のポート3000を仮想マシン側のポート3000にフォワードするように設定しています。

仮想マシンの起動

Vagrantfileを作成したディレクトリで、以下のコマンドを実行して仮想マシンを起動します。

vagrant up

このコマンドを実行すると、仮想マシンが自動的にダウンロードされ、起動されます。仮想マシンの起動には数分かかる場合があります。

仮想マシンへの接続

仮想マシンが起動したら、以下のコマンドを実行して仮想マシンに接続します。

vagrant ssh

これにより、仮想マシンにSSH接続されます。仮想マシンのコマンドラインが表示されたら、次の手順に進んでください。

必要なパッケージのインストール

以下のコマンドを実行して、Railsを実行するために必要なパッケージをインストールします。

sql

sudo apt-get update
sudo apt-get install -y build-essential libssl-dev libreadline-dev zlib1g-dev libsqlite3-dev nodejs

Rubyのインストール

以下のコマンドを実行して、Rubyのインストールに必要なパッケージをインストールします。

bash

echo 'export PATH="$HOME/.rbenv/bin:$PATH"' >> ~/.bashrc
echo 'eval "$(rbenv init -)"' >> ~/.bashrc
source ~/.bashrc
git clone https://github.com/rbenv/ruby-build.git ~/.rbenv/plugins/ruby-build
rbenv install 3.0.1
rbenv global 3.0.1

これにより、rbenvとruby-buildがインストールされ、Ruby 3.0.1がインストールされます。インストールには数分かかる場合があります。

Railsのインストール

以下のコマンドを実行して、Railsをインストールします。

gem install rails

これにより、最新版のRailsがインストールされます。

Railsアプリケーションの作成

以下のコマンドを実行して、新しいRailsアプリケーションを作成します。

sql

rails new myapp --database=postgresql

これにより、PostgreSQLをデータベースとして使用する新しいRailsアプリケーションが作成されます。

データベースの設定

以下のコマンドを実行して、PostgreSQLをインストールします。

arduino

sudo apt-get install postgresql libpq-dev

インストールが完了したら、以下のコマンドを実行して、PostgreSQLにログインします。

sudo -u postgres psql

以下のコマンドを実行して、新しいユーザーとデータベースを作成します。

sql

CREATE USER myapp WITH PASSWORD 'password';
CREATE DATABASE myapp_production OWNER myapp;

11. 準備

postgresやgemで定義したプログラムが使えるようするためインストールします

cd myapp

bundle install

続いて　postgresユーザを作ります。

sudo -u postgres createuser -s vagrant

続いて、データベースが存在することを確認してください。次のコマンドを使用して、データベースが存在するかどうかを確認できます。

bash

bin/rails dbconsole

上記のコマンドを実行すると、PostgreSQLのインタラクティブなシェルが開きます。そこで、次のコマンドを実行して、データベースが存在するかどうかを確認できます。

\l

データベースが存在しない場合は、次のコマンドを使用してデータベースを作成できます。

bash

bin/rails db:create

データベースが存在する場合は、config/database.ymlファイルが正しいことを確認してください。データベース名が正しいか、データベース接続の設定が正しいかを確認してください。

12. アプリケーションの起動

以下のコマンドを実行して、作成したRailsアプリケーションを起動します。

bash

cd myapp

rails server -b 0.0.0.0

これにより、Railsアプリケーションが起動されます。ホスト側のブラウザで、http://localhost:3000にアクセスしてRailsのデフォルトページが表示されることを確認してください。

ローカルでGitリポジトリを初期化する。

shell

$ cd /path/to/rails_app
$ git init

Gitリポジトリに全ての変更を追加する。

csharp

$ git add .

変更をコミットする。

ruby

$ git commit -m "Initial commit"

リモートリポジトリを追加する。

csharp

$ git remote add origin https://github.com/<user>/<repositry>.git

ローカルの変更をリモートリポジトリにプッシュする。

css

$ git push -u origin main

上記の手順で、ローカルの変更が指定のGitHub リポジトリにプッシュされます。

[インフラ監視ソフト]

UNIX系のジョブスケジューラ

cron

at

HPC（High Performance Computing）関連

Torque

Slurm

SGE (Sun Grid Engine)

LSF (Load Sharing Facility)

一般的なジョブキューシステム

Resque

Sidekiq

RabbitMQ

Apache Kafka

クラウド関連

AWS Batch

Azure Batch

Google Cloud Tasks

ワークフローオーケストレーション

Apache Airflow

Luigi

Prefect

Apache Nifi

分散システム関連

Apache ZooKeeper

RDBMS内のジョブ管理

Oracle DBMS_SCHEDULER

SQL Server Agent

その他のジョブ・キューシステム

Jenkins

Gearman

Rundeck

GoCD

企業パッケージのジョブ・キューシステム

Hinemos

JP1

Control-M

Tidal Workload Automation

Automic Automation

IBM Workload Scheduler

4. ダッシュボードとアラートの設定

監視対象となるリソースの設定

監視ベストプラクティス

メトリクスの収集と分析

メトリクスの収集方法

1.1 エージェントのインストール

1.2 APMの設定

1.3 インテグレーションの設定

メトリクスの分析方法

2.1 ダッシュボードの作成

2.2 アラートの設定

カスタムメトリクスの作成

3.1 ストレージメトリクスの作成

3.2 イベントメトリクスの作成

Datadogでのログの収集・分析方法

ログの収集方法

1.1 エージェントのインストール

1.2 インテグレーションの設定

1.3 サードパーティ製ログ収集ツールの使用

2. Fluentdをインストールし、設定ファイルを編集する。

ログの分析方法

2.1 ダッシュボードの作成

2.2 アラートの設定

カスタムログの作成

3.1 ソースカテゴリの作成

3.2 ログの送信

3.3 ログのフィルタリング

Datadogのトレースの収集と分析

トレースの収集方法

1.1 エージェントのインストール

1.2 Datadogトレーサーの統合

1.3 リクエストのトレース

2. トレースの分析方法

ハンズオン

0. Azure関数アプリ開発のローカル環境セットアップ

1. azure portalでのAzure関数アプリにコード挿入＋実行してみる。

2. 月額使用コストを取得する前準備：Azure AD トークンを取得するための準備

1. イントロ

1-1. SREの定義と役割の概要

1-2. クラウド技術の進化とSREの重要性