支援対象地域:札幌、仙台、関東、愛知、関西、広島、福岡


概要

ここでは、Certified TesterAI Testing (CT-AI)について説明させていただきます。
現在のビジネスにおいてAIの重要性は増す一方です。 また、AIをビジネスで活用する際には開発を行うだけでなく、運用やテストなどあらゆるライフサイクルを理解し、それらを実行する必要があります。
Certified TesterAI Testing (CT-AI)はその中でもテストにおいて特化した資格となり、学習することで人工知能やディープ (機械) 学習、特にAIベースのシステムのテストとテストでのAIの使用に関する理解を深めることが可能となります。

対象者

すでに述べたようにAIの活用は限定的でなくあらゆる業種やフェーズにおいて実行されるためその対象者も幅広いことが特徴です。
AIベースのシステムおよびAIのテストに携わるすべての人を対象としており、これらの需要は今後も高まるでしょう。 これには、テスター、テストアナリスト、データアナリスト、テストエンジニア、テストコンサルタント、テストマネージャー、ユーザー受け入れテスター、ソフトウェア開発者などの役割を持つ人々が含まれます。 それだけでなくプロジェクトマネージャー、品質マネージャー、ソフトウェア開発マネージャー、ビジネスアナリスト、運用チームメンバー、IT ディレクター、経営コンサルタントなど、AIベースのシステムテストの基本的な理解が必要な人にも適しています。 自身が手を動かしてテストを実施する必要のない立場であってもこれらの知識を獲得することは非常に重要と言えるでしょう。
また、Certified TesterAI Testing (CT-AI)はISTQB認定テスターファウンデーションレベル (CTFL) 認定取得者が対象になります。これは、実際に使用できる重要なテスト知識を提供し、非常に重要なこととして、テスト分野で世界中で使用されている用語と概念を説明しています。
ウォーターフォール、アジャイル、DevOps、継続的デリバリーなど、ソフトウェアデリバリーのアプローチとプラクティス全体に関連しています。
以上がCertified TesterAI Testing (CT-AI)に関する概要の説明とさせていただきます。

メリット

Certified TesterAI Testing (CT-AI)を取得するメリットについても説明させていただきます。

最新の知識

まず大きなメリットがAIの現状と今後の動向を理解することができる点です。
AIのテクノロジーやそれを取り巻く環境は大きく変化しております。 従来の知識では最新のビジネス環境に対応できないケースも増えてきますので、これらの知識を獲得し現場にフィードバックすることは非常に重要です。

AIテストの理解

さらには機械学習(ML)モデルの実装とテストを体験し、テスターがその品質に最も影響を与える場所を認識することも重要です。
特に自己学習機能、バイアス、倫理、複雑さ、非決定性、透明性、説明可能性など、AIベースのシステムのテストに関連する課題を理解することで幅広いAIテストに関する理解を行うことができるでしょう。 現在のソフトウェアテストやQAエンジニアの場合、これらの知識を体系的に学ぶ機会は少なく認定資格も非常に少ないと言えるでしょう。
Certified TesterAI Testing (CT-AI)を学習することでこれらを網羅的に理解することができ、実際の現場で役立つ知識を獲得することが可能となります。

テスト戦略

AIベースのシステムのテスト戦略に貢献することもそのメリットです。
テスト実施においてはテスト戦略や計画が非常に重要となってくることはいうまでもありません。 また、それらを実行するためにはAIの概要や幅広い知識が必要になります。 AI Testing (CT-AI)を学習することで正しいテスト戦略を構築することが可能となります。

テストケース

テストケースの作成においても役にたちます。
通常のテストケース作成と異なり、AIベースのシステムのテストケースを設計して実行するためには専門的な知識が必要になります。 具体的には、AIベースのシステムのテストをサポートするインフラストラクチャの特別な要件を認識することが 必要となります。

サポート

サポートに関する理解を深めることができる点もCertified TesterAI Testing (CT-AI)を学習するメリットです。
これは特にAIを使用してソフトウェアテストをサポートする方法を理解することであり、テストエンジニア以外でも様々な役職の方に役立ちます。

実践的

実践的なスキルに焦点を当てた実践的な目標が含まれている点もメリットです。
これらは、例えば、ガイド付き演習のような学習の過程において培うことが可能です。この学習では受講者はトレーナーが行う一連のステップに従ってまずは演習を行います。 次のステップとしてヒント付きの演習を実施します。 受講者は、与えられた時間内に問題を解くことができるように、関連するヒントがある演習を与えられます。 もしくは、ディスカッションに参加することが可能です。
これらのコンピテンシーは、アンダーフィットとオーバーフィットを実証する、機械学習(ML)モデルの作成を支援するデータ準備を行う、といった実践的な演習を行うことで達成されます。また、トレーニングデータセットとテストデータセットを特定し、機械学習(ML)モデルを作成することおよび作成した機械学習(ML)モデルを選択した機械学習(ML)機能性能指標を用いて評価することも実施します。パーセプトロンの実装を体験することや説明可能性をテスト担当者がどのように利用できるかを示すツールを使用する、なども体験します。

ペアワイズテストを適用し、AIを用いたシステムのテストケースを導出・実行できる点やメタモーフィックテストを適用し、与えられたシナリオに対してテストケースを導き出し、実行するなどの内容を学習します。
これによりAIを用いたシステムに探索的テストを適用することができ、AIを利用する可能性が低いテスト活動について、例を挙げて議論することができるようになります。さらに、AIを利用した簡単な欠陥予測システムを実装することができるようになります。 このように実践的な知識を獲得することができる点がもCertified TesterAI Testing (CT-AI)の大きなメリットと言えるでしょう。

試験について

Certified TesterAI Testing (CT-AI)の試験について説明させていただきます。
問題数は40、合計点が47点中31点で合格となります。試験は60分で実施されます。 シラバスにおける構成について説明させていただきます。
Certified TesterAI Testing (CT-AI)は11の章から構成され、各章は試験科目として扱われます。
各章のトップレベルの見出しとその章の時間についてもあわせて記載させていただきました。
「第1章/105分 AI入門」
「第2章/105分 AIを利用したシステムの品質特性」
「第3章/145分 機械学習(ML)-概要」
「第4章/230分 機械学習(ML)-データ」
「第5章/120分 機械学習(ML)-機能パフォーマンスメトリクス」
「第6章/65分 機械学習(ML)-ニューラルネットワークとテスト」
「第7章/115分 AIを用いたシステムのテスト-概要」
「第8章/150分 AI特有の品質特性のテスト」
「第9章/245分 AIベースシステムのテストのための方法と技術」
「第10章/30分 AIベースシステムのテスト環境」
「第11章/195分 AIをテストに活用する」
以上から構成されております。
それでは各章について簡単に説明させていただきます。

AI入門

AI入門ではその名の通りAIの基礎的な知識を学習します。
AIの定義や役割、歴史などについて理解を深めることができます。 人工知能(AI)という言葉は、1950年代までさかのぼります。 これらは人間を模倣できる「知的な機械」を作り、プログラミングすることを目的としたものです。 1970年代には、チェスで人間を打ち負かすコンピュータ・システムが発表され大きな話題となりました。 また、1970年代から1980年代のエキスパートシステムは、人間の専門知識をルールとして取り入れ、専門家がいなくても繰り返し実行することができました。
当時はAIとみられていた内容も現在では認識が変わり、それらはテクノロジーと共に変化しております。

カテゴリー

現在のAIは大きく3つに分類されます。
弱いAIは、特定のタスクを実行するようにプログラムされており、そのタスクの背景は限定されています。 限られたコンテキストで特定のタスクを実行するようにプログラムされています。現在、この形式のAIは広く普及しています。
例えば、ゲームプレイシステム、スパムフィルター、テストケースジェネレーター、音声アシスタントなどです。 強力なAIは、人間と同様に一般的な(広範囲の)認知能力を持っております。 このようなAIベースのシステムは、人間と同じように推論し、環境を理解することができそれに応じて行動します。 一般的なAIは人間の認知能力を再現することができ、大規模な処理能力、実質的に無制限のメモリ、人間のあらゆる知識へのアクセス(ウェブへのアクセスなど)を利用することができます。スーパーAIシステムは、すぐに人間より賢くなると考えられています。
AIベースのシステムが一般的なAIからスーパーAIに移行する時点は、一般に技術的なAIと呼ばれています。

従来のコンピューターとの違い

従来のコンピュータシステムでは、ソフトウエアは人間によってプログラムされ、命令型言語を使用します。
そのためシステムがどのように入力を出力に変換するのかを理解するのは比較的容易です。機械学習(ML)を用いたAIベースのシステムではデータのパターンを利用して、新しいデータに対して将来どのように反応すべきかをシステムが決定します。 例えば、猫の画像を識別するために設計されたAIベースの画像処理装置は、猫が写っていることが知られている画像セットで学習されます。 するとAIは、データ中のどのようなパターンや特徴を使えば猫を識別できるかを自ら判断します。 多くのAIシステムでは、その結果や予測方法が人間には理解しにくいものとなっていますが、このようなアルゴリズムが機能するのが従来のコンピューターとAIの違いとなります。

AIaaS

AIaaSについて理解しておくことも重要です。
AIコンポーネントは、組織内で作成することも、サードパーティからダウンロードすることも、ウェブ上のサービスとして利用することも可能です。これらをAIaaSと呼びます。
また、AI機能の一部をシステム内から提供し、一部をウェブ上のサービスとして利用するハイブリッド・アプローチも可能です。 機械学習(ML)をサービスとして利用する場合、機械学習(ML)モデルへのアクセスはウェブ上で提供され、データ準備や保存、データ収集、データ分析、データ解析などのサポートも提供されます。 また、モデルの学習、評価、チューニング、テスト、デプロイメントなどのサポートが提供されます。 サードパーティプロバイダ(例:AWS、Microsoft)は、顔認識や音声認識など特定のAIサービスを提供します。これにより、個人や組織は、リソースや専門知識が不十分な場合でも、クラウドベースサービスを使用してAIを実装することができます。 加えて、サードパーティサービスの一部として提供される機械学習(ML)モデルは、より大規模で多様な学習データセットで学習されている可能性が高く非常に精度が高いこともその特徴です。

これらのAIサービスは、通常、非AIのクラウドベースのソフトウェアと同様の契約によって提供されます。 SaaSと同様の契約で提供される。AIaaSの契約には、通常、サービスレベル契約(SLA)が含まれ、可用性とセキュリティのコミットメントが定義されます。 このようなSLAでは、通常、サービスの稼働時間や不具合修正の応答時間などが含まれますが、機械学習(ML)の機能的な性能指標(例えば、正確さなど)が定義されることはほとんどありません。 AIaaSは多くの場合、サブスクリプションベースで支払われます。 契約した可用性および/または応答時間が満たされない場合、サービスプロバイダは将来のサービスに対してクレジットを提供します。
ほとんどのAIaaS契約では、(支払った料金以外の)責任は限定されており、AIaaSに依存するAIベース・システム は、通常、サービスの損失がそれほど損害を与えない、比較的リスクの低いアプリケーションに限定されます。 これらのサービスには、受け入れ期間の代わりに、最初の無料試用期間が設けられていることが多いです。 この期間中に、AIaaSの利用者は、提供されるサービスが必要な機能や性能の点で彼らのニーズを満たしているかどうかをテストすることが期待されます。

AIを利用したシステムの品質特性

柔軟性と適応性は、密接に関連した品質特性でああり、AIについてこれらを理解することは非常に重要です。
柔軟性とは、システムが当初のシステム要件にない状況でも使用できることであり、適応性とは、システムが変更されやすいことです。 また、適応性とは、ハードウェアの違いやシステムの変更など、新たな状況に対してシステムを容易に 適応性とは、ハードウェアの違いや運用環境の変化など、新たな状況に合わせてシステムを変更することの容易さとなります。
柔軟性と適応性の両方が有効なのは、

  • ・システム導入時に運用環境が完全に把握されていない場合
  • ・システムが新しい運用環境に対応することが期待される場合
  • ・システムが新しい状況に適応することが期待される場合
  • ・システムがいつ行動を変えるべきかを判断しなければならない場合
上記のような場合です。
自己学習型AIシステムは、上記のような特徴をすべて備えていることが期待されます。

バイアス

バイアスについての知識も問われます。
機械学習(ML)システムは、収集したデータを利用するアルゴリズムを用いて、意思決定や予測を行うものです。 AIベースのシステムにおいて、バイアスはシステムが提供する出力と、その出力に偏りがない公正な出力と考えられるものとの間の距離の統計的尺度として扱われます。
不適切なバイアスは、性別、人種、民族、性的指向、収入レベル、年齢などの属性に関連付けることができます。 例えば、銀行融資の推薦システム、採用システム、司法監視システムなど、AIを利用したシステムで不適切なバイアスがかかる事例が報告されています。

例えば、エキスパートシステムが適用するルールに専門家のバイアスが組み込まれることを防ぐことは困難です。しかし、AIの普及は、バイアスに関連する議論の多くが、これらのシステムの文脈で行われることを意味します。 この2つの要素によって、結果にバイアスが生じる可能性があります。 アルゴリズムのバイアスは、学習アルゴリズムが正しく設定されていない場合に発生することがあります. アルゴリズムの偏りは、例えば、あるデータを他のデータと比較して過大評価するなど、学習アルゴリズムの設定が不適切な場合に発生します。 このようなバイアスは、ハイパーパラメータの調整によって発生・管理することができます。 また、サンプルバイアスは、機械学習(ML)を適用するデータ空間を完全に代表していない場合に発生することがあります。

安全性とAI

AIを用いたシステムが人や財産、環境に害を与えないことを期待するものです。 AIベースのシステムは、安全性に影響を与える意思決定を行うために使用されることがあります。 安全性に影響を与える決定を行うために使用されることがあります。 例えば、医療、製造、防衛、セキュリティ、輸送の分野などです。 AIベースのシステムが安全であること(例えば、人に危害を加えないこと)を保証することを難しくするAIベースのシステムの特性は、以下の通りです。 複雑性、非決定性、確率論的性質、自己学習、透明性、解釈可能性、説明可能性の欠如、ロバスト性の欠如などです。

機械学習(ML)-概要

機械学習(ML)-概要の内容について説明させていただきます。

教師あり学習

教師あり学習は学習段階において、ラベル付きデータから機械学習(ML)を作成する方法です。
教師あり学習は最も一般的なタイプの機械学習(ML)であり、さまざまなアプリケーションで使用されています。 ラベル付けされたデータは入力のペアから構成されます。 例えば、特定の単語と画像をペアにしてラベル付きデータとして扱うことになります。 新しい未知のデータセットを学習したモデルに適用し、出力を予測します。 そして出力精度が満足のいくものであれば、そのモデルを導入することになります。

教師あり学習で解決されるポイントは概ね2つに分類されます。
一点目が分類です。 入力があらかじめ定義されたいくつかのクラスのいずれかに分類されることが必要な場合、分類が用いられます。 また、画像中の顔認識や物体検出は、分類を用いる事例の代表的なものとなります。
二点目が回帰です。 回帰により機械学習(ML)モデルに数値出力を予測させる必要がある場合があります。 また、この場合の回帰は機械学習(ML)モデルにより使用されソフトウェアの変更が変更に関連した不具合を引き起こすという問題を説明するために使われます。

教師なし学習

教師なし学習はパターンがどうあるべきかの明示的なリストを与えられずに、データ内のパターンを見つけることを目標とする機械学習タスクです。
これは、データ内の隠れた特徴を見つけることを目標とする探索的データ分析と、次元削減に使用されます。 ラベル付けされていないデータは、学習時にアルゴリズムが入力データのパターンを推論するために利用されます。 また、学習時に入力データのパターンを推測し、その共通性から異なるクラスに入力を割り当てます。 テスト段階では、学習されたモデルを新しい未知データセットに適用し、入力データがどのクラスに割り当てられるべきかを予測し、出力精度が十分であると判断された時点で、このモデルが導入されます。

教師なし学習のポイントは2つに分類されます。
一点目がクラスタリングです。 これは入力データの類似性を識別することが必要な場合であり、共通の特徴や属性に基づいてグループ化することが必要な場合です。 例えば、クラスタリングは、マーケティングを目的として、異なるタイプの顧客を分類するために使用されます。
二点目が関連付けです。データ属性間の興味深い関係や依存関係が必要な場合です。 例えば、商品推薦システムは、顧客の購買行動に基づいて関連性を特定することができます。

強化学習

強化学習は、システム(知的エージェント)が環境との相互作用によって学習し、経験から学習するアプローチです。
強化学習は、学習データを用いないで利用される点が特徴です。 エージェントは、正しい判断をしたときには報酬を受け、誤った判断をしたときにはペナルティを受けることになります。 そのため環境の設定、目標達成のための適切な戦略の選択、そして報酬関数の設計が重要となります。 強化学習の応用例として、ロボット、自律走行車、チャットボットなどがあります。 これらを応用し、改善することでさらにサービスの品質を高めることが可能となります。

強化学習は、現在様々な取り組みが行われ研究されている段階です。従来の方法では体系化することが難しい挙動や、難易度の高い分析に対して異なるアプローチを与えることが可能です。 そのため、まだ適用が難しい分野や領域において、これから積極的に導入され効率化を行うことが期待されております。
例えば、高度な制御を必要とする分野などは特にその研究が期待され、その代表例は自動運転です。 最初の自動運転車は1990年代後半に導入されました。カーネギーメロン大学によって開発され、DARPAによって資金提供されたことで知られております。 1995年、ピッツバーグからサンディエゴまでナビゲートするNavLab5と呼ばれる自動運転車が開発されました。 車には、ディファレンシャル GPS、レーザー距離計、その他のセンサーを使用して地図上で位置を特定し、車両を操縦するオンボード コンピューター システムが搭載されていました。
1999年には、改良されたリンカーンナビゲーター SUVが、人間の介入なしでニューヨーク市からサンディエゴまで、アメリカを横断する最初の自動運転車になりました。
自動運転車の最新の開発は、そのテストを行ってきたGoogleのWaymoプロジェクトです。 Waymo は、Googleによって設立された自動運転車の会社で、過去10年間、自動運転車を開発してきました。 このプロジェクトは、Googleが自動運転車を開発する意向を発表した 2009年に始まりました。このプロジェクトは、GoogleXの創設者の1人でもある Sebastian Thrunが主導しました。
2012年、同社の最初のプロトタイプ車両がカリフォルニアでのイベントで発表されました。そして 2015年には、カリフォルニア州の公道で自動運転車のテストを開始しました。 2016年、Waymoがコンピューター制御下で200万マイル以上の公道を1件の事故もなく (人間のドライバーが関与した事故はあったものの) 走行したことを明らかにした後、Waymoが自動運転技術のリーダーになったことが明らかになりました。

ワークフロー

機械学習(ML)ワークフローのアクティビティは目的を理解し、デプロイされるモデルの目的を理解し、ステークホルダーと合意する必要があります。また、ビジネスプロフェッショナルとの整合性を確保するために、利害関係者と合意する必要があります。
フレームワークの選定も重要です。 適切なAI開発フレームワークは、目的、受容基準、ビジネスの優先順位に基づいて選択する必要があります。 また、機械学習(ML)アルゴリズムは、目的、受容基準、利用可能なデータなど、様々な要因に基づいて選択されます。 アルゴリズムは手作業でコーディングされることもありますが多くの場合、事前に書かれたコードのライブラリから取得され、必要であれば、モデルのトレーニングのために準備する必要があります。

ガイドライン

適切な機械学習(ML)手法を選択する際には以下のガイドラインが適用されます。
選択したML手法のために十分な学習データとテストデータが必要です。 出力ラベルがあれば、教師あり学習でもよく出力が離散的・カテゴリー的であれば、分類学習となり出力が数値で連続的であれば、回帰となりうることです。
また、与えられたデータセットに出力がない場合、教師なし学習となる可能性があります。 そして似たようなデータをグループ化する問題であれば、クラスタリングであることが推測され、共起するデータ項目を探す問題であれば、連想学習であることが推測されます。 強化学習は、環境との相互作用がある場合に適しており、環境との相互作用がある場合に適しています。 もし問題が複数の状態の概念を含み、各状態での判断を伴うのであれば、強化学習が適用できる可能性が高いです。
以上が簡単ではありますがガイドラインの説明とさせていただきます。

機械学習(ML)-データ

機械学習(ML)-データの内容について説明させていただきます。

データの取得

機械学習(ML)においてデータの取り扱いは非常に重要なため、いくつかのポイントについて説明させていただきます。
一点目がデータの特定です。 学習と予測に使用するデータの種類を特定します、 例えば、自動運転車の場合、レーダー、ビデオ、レーザー画像、検出、測距(LiDAR)データの必要性を特定することができることです。
また、レーザー画像、検出、および測距(LiDAR)データの必要性を確認します。 LIDARは、Light Detection and Ranging の頭字語で、LIDARシステムは、地理学、地質学、天文学、大気科学、林業、考古学など、さまざまな分野で使用されています。LIDARは対象物にレーザーパルスを照射し、反射したパルスを検出器で分析することによって対象物までの距離を測定するリモート センシング技術です。この技術を使用して、オブジェクトとその周囲の間の距離を測定したり、形状や輪郭などのオブジェクトの物理的特徴をマッピングしたりできます。
二点目がデータの収集をする必要があることです。 データソースが特定され、データ収集の手段が決定します。例えば、国際通貨基金(IMF)を情報源として特定するなどです。その後そのデータをAIベースのシステムに送信するために使用されるチャネルを特定します。
三点目がラベリングです。 取得したデータは様々な形態(数値、カテゴリー、画像、表形式、テキスト、時系列、センサー、地理空間、ビデオ、音声など)があります。
四点目がクリーニングです。 不正確なデータ、重複したデータ、外れ値などが確認された場合、それらを削除または修正します。 さらに、データインピュテーションを使用して、欠損データ値を推定値や推測値(平均値、中央値、最頻値など)に置き換えます。この過程においては個人情報の個人情報の削除や匿名化も行われることがあります。
五点目が変換です。 データの形式を変更すること(例:文字列として保持されている住所を構成要素に分解する)や、文字列として保持されている住所を分割して構成する、ランダムな識別子を保持するフィールドを削除する、カテゴリーデータを数値データに変換する、などがこれらに該当します。このような数値データの変換には、同じ範囲を使用するためのスケーリングが含まれます。例えば、標準化では、平均が0、標準偏差が1になるようにデータを再スケールします。
六点目がオーグメンテーションです。これらはデータセットのサンプル数を増加させるために使用します。 また、学習データに敵対的な例を含めることで、敵対的な攻撃に対して堅牢になる。 学習時に最適化するパラメータ数が多いため、量の学習データを準備できない事例は多いです。さらに認識性能を高める際に活躍するのが、データオーグメンテーションとなります。
七点目がサンプリングです。利用可能な全データセットの一部を選択することで、より大きなデータセットにおけるパターンを観察します。 これは、一般的にコスト削減とモデル作成に必要な時間短縮のために行われます。 すべての前処理は、有用な有効データを変更したり、無効なデータを追加したりするリスクを伴うことに留意する必要があります。

トレーニング

データおよびトレーニングについて説明させていただきます。
学習データセットはモデルの学習、検証用データセットはモデルの評価とチューニング、テストデータセットはチューニングされたモデルをテストするために使用されます。評価とテストに使用されるデータ量は、一般的に以下の要因に依存します。
一点目がモデルを学習するために使用するアルゴリズムです。
二点目がRAM、ディスクスペース、コンピューティングパワー、ネットワーク帯域幅、利用可能な時間などのリソースの可用性やおよび利用可能な時間です。 実際には、適切なデータを十分に取得することが困難であるため、学習および検証用のデータセットは、多くの場合、単一のデータセットから取得されます。 これらのテストデータセットは別個に保管され、学習時には使用されません。なぜなら、開発したモデルがテストデータから影響を受けずにモデルの品質を正しく反映するようにするためです。

比率

データセットが小さい場合や、期待される運用データを代表するデータセットにならない可能性がある場合は、ランダムに分割することが多いです。
利用可能なデータが限られている場合、利用可能なデータを3つのデータセットに分割すると、効果的な学習に利用できるデータが不十分となる可能性があります。 効果的なトレーニングを行うには、十分なデータが得られない可能性があります。この問題を解決するために、トレーニングデータセットとバリデーションデータセットを結合し(テストデータセットは分離)、このデータセットを複数に分割して使用することができます。 その後、データをトレーニングデータセットと検証データセットにランダムに割り当てます。
この複数の分割されたデータセットを用いて、学習、検証、チューニングを行い、チューニングされた複数のモデルを作成します。 複数の分割組合せを作成する方法には、分割テスト、分割、ブートストラップ、K-foldクロスバリデーション、クロスバリデーションなどです。

機械学習(ML)-機能パフォーマンスメトリクス

機械学習(ML)-機能パフォーマンスメトリクスの内容について説明させていただきます。

回帰とクラスタリング

機械学習(ML)モデルの様々なタイプの問題に対して多くのメトリックが存在しますが、最もよく使われるメトリクスのいくつかを説明させていただきます。
一点目が教師あり分類のメトリクスです。 受信者動作特性(ROC)曲線は2値分類器の識別能力を示すグラフです。 この手法はもともと軍事用レーダーのために開発されたもので、そのためこのような名前がついており、ROC曲線は真陽性率(TPR)と共にプロットされます。 AUC(area under curve)は、ROC曲線の下での面積です。これは分類器の分離可能性の程度を表しモデルがクラス間をどれだけ区別できるかを示します。AUCが高いほどそのモデルの予測は優れていると言えます。
二点目が教師あり回帰の指標です。 教師あり回帰モデルでは、メトリクスは回帰線が実際のデータ点にどれだけフィットするかを表します。 平均2乗誤差(MSE)は、実際の値と予測値の間の2乗差の平均です。 MSEの値は常に正であり、ゼロに近い値であれば、より良い回帰モデルを示唆します。 差を二乗することで、正と負の誤差が相殺されないようにします。 R2乗(決定係数ともいう)は、回帰モデルが従属変数にどれだけよく適合しているかの尺度です。
三点目が教師なしクラスタリングメトリクスです。 教師なしクラスタリングでは、さまざまなクラスタ間の距離や、クラスタの近さを表すいくつかのメトリクスがあります。 クラスタ内メトリクスは、クラスタ間の距離と、与えられたクラスタ内のデータ点の近さを表します。 クラスタ内メトリクスは、クラスタ内のデータポイントの類似性を測定します。 クラスタ間メトリクスは、異なるクラスタ内のデータ点の類似性を測定します。 シルエット係数(シルエットスコアとも呼ばれる)は、クラスタ間の平均値に基づいて、-1~+1の間 であり、スコアが+1であればクラスタがよく分離されていることを意味し、0のスコアはランダムなクラスタリングを意味し、-1のスコアは、クラスタが誤っていることを意味します。

まとめ

いかがでしたでしょうか? Certified TesterAI Testing (CT-AI)について説明させていただきましたので、参考にしていただけましたら幸いです。