データサイエンティスト検定とは?詳しく解説します
データサイエンティスト検定の概要について
ここでは、データサイエンティスト検定について説明させていただきます。
データサイエンティスト検定は一般社団法人データサイエンティスト協会
が主催しているデータサイエンティストとしての知識と問う資格です。
近年になりビッグデータや人工知能といったテクノロジーが普及し、
多くのビジネスシーンで活用されていることは周知の通りです。
その中でデータサイエンティストの重要性は増す一方であり、それらを体系的に学ぶことは
ビジネスマンとしての価値を高めることにも繋がります。
最近、データサイエンティストの需要が高まっていますが、データサイエンティストの平均給与は年間125,000ドル以上という調査結果がでており、給与の中央値は年間119,000ドルです。アメリカの政府機関に雇用されているデータサイエンティストは、平均して年間約129,000ドルを稼ぎ、コンピューターシステムの設計と関連サービスに従事するデータサイエンティストは、平均して年間約120,000ドルを稼ぎます。ビッグデータ分析を専門とするデータサイエンティストは、通常、他のタイプのデータサイエンティストよりも多くのことを行います。
このように高い年収を誇るデータサイエンティストですが、資格を取得することでより高い専門性を証明できます。
データサイエンティストは人気の職業ですが、大量のデータを分析し、実用的な洞察を見つけて、それらの洞察を変更を加えることができる人々に伝えるスキルが必要です。データサイエンティストとして成功するために必要なトップスキルは資格を取得することで体系的に学ぶことができます。
データサイエンティストにとって最も重要なスキルは、受け取ったすべてのデータをどう処理するかを知ることです。また、高い専門性を生かし雇用主に役立つ情報を抽出できるスキルを身につける必要があります。
これを行うには、PythonやSQLなどのさまざまなツールやプログラミング言語の使用方法を知っている必要があります。
データサイエンティストとして成功するための大きな部分は、社内の他の人が理解しやすい方法で調査結果を伝達することもその一つと言えるでしょう。
そのような背景を受けて一般社団法人データサイエンティスト協会はデータサイエンティストに必要となるスキル・知識を定義し、
育成のカリキュラム作成、評価制度の構築など、高度IT人材の育成と業界の健全な発展への貢献、啓蒙活動を
積極的に行っています。
また、データ分析に関わる人材が開かれた環境で交流や議論をし、自由に情報共有や意見発信ができる場を
整えることでデータサイエンティストや業界の関係者、エンジニアなど様々な人々の
発展に貢献する組織です。
データサイエンティスト検定を実施する一般社団法人データサイエンティスト協会は2012年に有志による新団体設立に向けた活動スタートされ、ソーシャルメディア上への準備ページの設置・意見交換
、有識者・学識経験者へのヒアリング、各種イベントでの講演・啓蒙活動などの実施を行ってきました。
活動内容としては
「データサイエンティストに必要とされる技能(スキル)要件、知識・経験のレベル定義とその標準化の推進、ならびにその普及啓蒙活動」
「データサイエンティストの認定制度、資格検定制度等の企画、開催、運営」
「ベストプラクティスやデータサイエンスに関わる調査研究、および情報発信」
「データサイエンティスト育成のための教育活動」
「シンポジウム、研究会、講演会、講習会、講座、セミナー等の企画、開催、運営」
「ビジネス機会、就業機会創出のための各種活動」
「国内外の関連諸団体等との活動に関する情報交換や連携・協力のための活動」
「雑誌・書籍の企画、出版、販売、および音響・映像商品(音声データ、動画データ、その他各種メディア等)の企画、製造、販売」
「その他本法人の目的を達成するために必要な活動」となっております。
では、データサイエンティスト検定についてもう少し詳しく解説させていただきます。
データサイエンティスト検定では、いくつかの難易度に分類されます。ビジネス力(business problem solving)データサイエンス力
(data science) データエンジニアリング力
(data engineering)のスキルレベルに分類されますので、受験者の方は目安にしてみてください。
データサイエンティスト検定のAssistantDataScientistはエントリーレベルの内容で、データに関する基礎的なビジネス力の理解が必要となります。
具体的にはビジネスにおける論理とデータの重要性を理解したデータプロフェッショナルとして行動規範と判断
が身についていることや、データを取り扱う倫理と法令の理解や引き受けたことは逃げずにやり切る
コミットメント、迅速な報告や、報告に対する指摘のすみやかな理解などが問われます。
また、データドリブンな分析的アプローチの基本が身についており、仮説
や既知の問題が与えられた中で、必要なデータを入手し、分析、取りまとめることができることや、データや事象のダブリとモレの判断力や分析前の目的、ゴール設定、目的に即したデータ入手、分析結果の意味合いの正しい言語化、モニタリングの重要性理解
、担当する検討領域についての基本的な課題の枠組みを理解できること、担当する業界の主要な変数(KPI)
、基本的なビジネスフレームワークなどについての知識が問われます。
データサイエンス力では統計数理や線形代数、微分積分の基礎知識を有している(代表値、分散、標準偏差、正規分
布、条件付き確率、母集団、相関、ベイズの定理、ベクトルや行列の計算方法、関数の傾きと微分の関係など)ことの知識が問われます。
また、データ分析の基礎知識を有していることや分析用データの整備、予測、グルーピングなどのモデリン
グモデルの評価、機械学習の基本的な概念を理解していること(教師あり学習と教師なし学習の違い
械学習における過学習の理解など)適切な指示のもとに、データ加工を実施できること、基本統計量や分布の確認、および前処理(外れ値・異常値・欠損値の除去・変換や標準化など)
データ可視化の基礎知識を有している軸だし、不適切な表現の理解意味合いの導出などの知識が問われます。
以上がデータサイエンティスト検定のAssistantDataScientistの出題内容に関する説明とさせていただきます。
次にデータサイエンティスト検定のAssociateDataScientistに関して説明させていただきます。
これは独り立ちして業務を実行できるレベルの実務者となります。
AssociateDataScientistのビジネス力では、自立したプロフェッショナルとして、ビジネス判断、課題解決ができるための知識が必要となります。
具体的にはビジネス要件の整理、プロジェクトの企画・提案、データや分析結果の開示範囲、知財リスクの確認などの適切な対応などです。
また、既知の領域、テーマであれば、新規課題であっても解くべき問題の
見極めや構造化、深掘りができることやデータ、分析結果に対する表面的
な意味合いを超えた洞察力を持ち、担当プロジェクトの検討結果
を取りまとめ、現場への説明、実装を自律的かつ論理的に行うことができることなどの知識が問われます。
5名前後のプロフェッショナルによるチームでのプロジェクトを推進し
アウトプットにコミットできることや、タスクの粘り強い完遂やイシュードリブンでスピード感のあ
る判断やプロジェクトマネジメントと個別メ
ンバーの育成や異なるスキル分野の専門家、事業者との協働に関する知識も問われます。身につけることで、様々な現場に行っても柔軟に対応し活躍するためのスキルが身につくでしょう。
データサイエンス力では、単一プロジェクトにおけるデータ
分析を Full Data Scientist(棟梁レベル)に相談しつつ推進できる一定のスキルが必要とされます。
また、指導者として簡単な教育をすることもあるためAssistant Data Scientistの日々の活動に適切な指示を行うための知識も必要です。
既知の領域、テーマであれば、新規課題であっても適切な分析・解析
アプローチの設計、実行、深掘りができること、
基礎的なデータ加工については、自律的に実施できること、外れ値・異常値・欠損値の対応、適切な学習データ、検証データ、テ
ストデータの作成や特徴量エンジニアリングによる効果的なデータの作成ができることも必要です。
基礎的な分析活動については、自律的に実施できること、多重共線性を考慮した重回帰分析
、p値の限界の理解と現実的な対応、適切なクラスター数による非階層ク
ラスター分析、系列データの特性を理解した時系列分析、ライブラリなどを活用した機械学習
や深層学習、画像のパターン抽出や音声のノイズ除去、形態素解析などを用いた基本的文書、構造解析やベクトル表現に関する知識が必要とされます。
データエンジニアリング力では、単一プロジェクトにおけるデータ
処理・環境構築を Full DataScientist(棟梁レベル)に相談しつつ推進できるといった知識が問われます。
また、Assistant Data Scientistの日々の活動に適切な指示ができることや、数千万レコード程度のデータ処理・環境構築については自律的に実施できること、データの重要性や分析要件に則した
システム要件定義、適切なデータフロー図、論理データ
モデル、ER 図の作成、Hadoop や Spark での管理対象データ選定やSDK や API、ライブラリ、コンテナ技術などの適切な活用ができる知識も問われます。
SQL の構文理解と実行、分析プログラムのロジック理解と分析結果検証、データ匿名化方法の理解と加工処
理の設計、分析要件に合わせたインフラ環境(GPU/CPU、クラウド/オンプレミスなど)を設計・実装できる知識も必要とされます。
次にデータサイエンティスト検定のFullDataScientistについて説明させていただきます。
FullDataScientistのビジネス力では、生み出す価値にコミットするプロフェッショナルとして、データサイエンティストとは何かを体現したビジネス判断、課題解決ができるための知識が問われます。
また、初見の事業領域に向かい合う場合や、スコープが複数の事業にまた
がる場合であっても本質的な課題を見出し、構造化・深掘りができ
ること、入り組んだステークホルダー構造の中で、Win-Win の形で価値を設計・創造し、そこからの発展を見
据えた仕込みと推進するハブとしての役割を担うことができること、
プロフェッショナルからなる複数のチームによるプロジェクトの役割、目標を定義、推進し、全体としてのアウトプットにコミットできると共に、メンバーを育成、さらには持続的な育成システムを作
り出すことができるための知識が問われます。
データサイエンス力では、予測、グルーピング、機械学習、深
層学習、大量データの可視化、言語などの知識が問われます。
画像処理、最適化問題などの応用的なデータサイエンス関連のスキルを活かし、データ分析プロジェクトの技能的主軸を担うことができることや、初見の事業領域に向かい合う場合や、スコープが複数の事業にまたがる場合であっても、適切な分析・解析アプローチの設計、実行、深掘りができることや、複数もしくは高度な分析プロジェ
クトを持つチームにおいて、Associate Data Scientist以下のメンバーの技能を育成することができるなどの知識が問われます。
データエンジニアリング力では、数十億レコード程度の分析環境の要件定義・設計、データ収集/蓄積/加工/共有プロセスやIT セキュリティに関するデータエンジニアリング関連のスキルを活かし、データ分析プロジェクトを中核的に推進することができるための知識が問われます。
全体を統括するアーキテクトとして、サービス上のそれぞれの機能
がどのデータに関連があるか総合的に把握し、新たな技術を理解し
つつ設計や開発に活かすことができることや、複数もしくは高度な分析プロジェクトを持つチームにおいて、Associate Data Scientist以下のメンバーの技能を育成することができるための知識が問われます。
次にデータサイエンティスト検定のSeniorDataScientistについて説明させていただきます。
SeniorDataScientistのビジネス力では業界を代表するデータプロフェッショナルとして、組織全体や市場
全体レベルでのインパクトを生み出すことができるための知識が問われます。
対象とする事業全体、産業領域における課題の切り分け、論点の明確化、
、構造化、新たなデータ分析、解析、利活用領域の開拓や
組織・会社・産業を横断したデータコンソーシアムの構築、推進、
事業や産業全体に対するデータ分析、を核としたバリューチェーン創出について理解が必要です。
データサイエンス力では、業界を代表するデータプロフェッショナルとして、データサイエン
スにおける既存手法の限界を打ち破り、新たに課題解決可能な領域を切り拓くための知識が必要となります。
既存手法では対応困難な課題に対する新規の分析アプローチの開発・実
践・横展開高難度の分析プロジェクトのアプロ
ーチ設計、推進、完遂能力など高度な専門知識が問われるのが、その特徴と言えるでしょう。
データエンジニアリング力では、業界を代表するアーキテクトとして、データサイエンス領域で行お
うとしている分析アプローチを、挑戦的な課題であっても安定的に
実現できるための能力が必要です。
具体的には複数のデータソースを統合した例外的規模のデータシステム、もしくは
データプロダクトの構築、全体最適化、技術的限界を熟知し、これまでにな
い代案の提示・実行などの高度な専門知識となります。
以上が簡単ではありますがデータサイエンティスト検定に関する説明とさせていただきます。
データサイエンティスト検定の試験について
データサイエンティスト検定の試験について説明させていただきます。 データサイエンティスト検定は、問題数80問程度試験時間90分、試験は選択式、全国の試験会場で開催(CBT)で実施されます。学習は、 「最短突破データサイエンティスト検定(リテラシーレベル)公式リファレンスブック」 といった公式の参考書が出版されておりますので こちらを利用することがおすすめです。 こちらは「データサイエンティスト検定 リテラシーレベル」の一般社団法人データサイエンティスト協会が推奨する公式リファレンスブックとしてエントリーレベルの試験突破のための参考書で、 データサイエンティスト検定で問われる計147個のスキル項目について要点と学習のポイントを基本から一つひとつ解説しております。 お伝えした通り一般社団法人データサイエンティスト協会が推奨しているだけでなく 第一線で活躍する執筆陣が具体的なシーンにまで踏み込んで説明しているためデータサイエンティストとしての実践的な能力を獲得することができます。 また、「最短突破データサイエンティスト検定(リテラシーレベル)公式リファレンスブック」は 参考書としてだけでなく、巻末に問題集も付属しております。 参考書として基礎的な理解をして、その後問題集を解くという流れで試験に 合格する力を身につけることができますので積極的に活用するといいでしょう。 以上がデータサイエンティスト検定に関する説明とさせていただきます。
データサイエンティストのメリット
データサイエンティストのメリットや将来性について説明させていただきます。
データサイエンティスト検定を取得しデータサイエンティストのプロフェッショナルとなることは多くのメリットがあります。
まずは年収面でのメリットについて説明させていただきます。
データサイエンティストといっても企業の規模や、担当する業務の専門性や難易度によって
異なるため一概に説明することは難しいのですが、日本の国内の企業であれば
年収400万円~600万円以上という条件が一般的です。
また、海外ではデータサイエンティストの専門家の需要が高いこともあり
さらに年収は高くなるため、英語を身につけることや外資系企業で働くことで
さらに高い年収を狙うことができます。
データサイエンティストのメリットの将来性についても説明させていただきます。
現在では、企業が活動するうえで収集するデータを分析しビジネスに活用することは
必須ですが、データを取り扱うためのテクノロジーは多様化しておりかつ高度な専門知識が
必要となるケースがほとんどであり、多くの企業ではデータサイエンティストのプロフェッショナルが
枯渇しているというのが現状となります。
特に近年においては、データドリブンという言葉を耳にする機会が増えました。
データドリブンとは、売上データやマーケティングデータ、WEBから収集したデータなど、データに基づいて判断・アクションし経営上の判断を行うことを指します。
メディアやSNSなどの多様化により、顧客の行動様式は複雑化する一方であり、
従来のような単純なマーケティング戦略ではなくデータドリブンであることが企業が競合他社に勝つためには必須の知識となってきていることは間違いありません。
このような時代において、データサイエンティスト検定で学ぶビジネス力、データサイエンス力、データエンジニアリング力は大いに役に立つでしょう。
これらの知識はデータサイエンティストという職業に限定された領域でなく、
ビジネス全般において必要な知識となってくることは間違いありません。
特にデータサイエンティストという職業が定義される従来型のマーケティングでは、
ビジネスを勘や経験のみで実施し、それらを検証するすべがないことや失敗のまま修正できないというケースも
少なくありませんでした。また、課題を解決する際に、そもそも定量化する意識が無いため企業としての
データが蓄積することができないというデメリットや、データに付帯する権利や個人情報
についての意識が低いなど組織としての課題がありました。
データサイエンティストによって基本統計量の意味を正しく理解してビジネスに活用することができることや、
線形代数や微分・積分の基本を理解すること、指数を指数で活用すること、それらを可視化し
共有することで組織としての最適化できることなど多くのメリットが存在します。
以上が簡単ではありますが、データサイエンティストのメリットに関する説明とさせていただきます。
データサイエンティスト検定に関連する資格について
データサイエンティスト検定に関連する資格がOSS-DB(オープンソースデータベース技術者認定試験)で、OSS-DB SilverおよびOSS-DB Goldとなります。
OSS-DBはLPI-Japan(特定非営利活動法人エルピーアイジャパン)が主催する資格の一つです。
LPI-Japanは2000年に設立された組織であり、
日本での Linuxの技術力認定試験の普及とITプロフェッショナルの育成のために発足されました。
現在は対象を広げOSSのデータベースソフトウェア、クラウドソフトウェアであるCloudStackやOpenStack、
更にはHTML5のプロフェッショナルのための認定試験を実施するNPO法人として活動しております。
日本国内でエンジニア向けの資格を発行する団体として知名度が高いだけでなく、
様々な形で業界に貢献している組織ということが言えるのではないでしょうか。
LPI-Japanでは活動を通じて
日本のITプロフェッショナルの技術力を高めること、日本のITプロフェッショナルをオープンソースの世界に導き、能動的な貢献を前提とする世界で活躍出来るようにすること、
日本の経営者のオープンソースムーブメントに対する理解を深めることなどを行っております。発行している資格としては
Linux技術者認定試験 LinuC(リナック)
、Linux技術者認定試験(LPIC)、OSS-DB
、HTML5(HTML5プロフェッショナル認定試験)、ACCEL(Apache CloudStack技術者認定試験)
、OPCEL(OpenStack技術者認定試験)、Kubernetes技術者認定などがあります。
また、参加団体はLinux Foundation、OSSコンソーシアム、全国専門学校情報教育協会、社団法人コンピュータソフトウェア協会
、MIJS(メイドインジャパン ソフトウェア コンソーシアム、IMA価値共創研究会
、一般社団法人価値創造フォーラム21、日本PostgreSQLユーザ会
、PostgreSQLエンタープライズ・コンソーシアム、オープンソースビジネス推進協議会、沖縄オープンラボラトリ、ブロックチェーン推進協会(BCCC)、日本OpenStackユーザ会
、一般社団法人 日本ブロックチェーン協会 、スキル標準ユーザー協会、日本OSS推進フォーラムとなります。
近年ではオープンテクノロジーのビジネスが拡大し、多くの企業が関わっていることで知られており、
エンジニアの技術や知識を正確に把握するためには、企業内の独自の評価基準だけでなく統一された基準があることが重要であることは
言うまでもありません。
LPI-Japanでは認定が「公正」「中立」「信頼」を担保した認定資格を発行し、 オープンテクノロジーの認定を持つことはITシステムのアーキテクチャを理解していることの証明を
実施します。実際に多く企業の対して認定資格を行うことでエンジニアのレベルアップや教育面での貢献など様々な形で業界を支援しております。
OSS-DBはエンタープライズ領域での利用が進んでいる「PostgreSQL」の技術力を証明するための認定資格となります。
PostgreSQLはデータベース市場において一定のシェアを誇り、データベースエンジニアやデータを扱う職種、あるいはインフラエンジニアの方であれば関連する資格は取得しておきたいところです。
OSS-DBでは、PostgreSQLに関連する実践的な知識を体系的に獲得することのできる資格となり、それらはエンジニアとしてのキャリアアップに大きく貢献することが可能です。
特にオープンソースデータベースは、商用データベースと機能的に比較をして遜色のないレベルにまで発展し、
企業が抱えるITシステムの低コスト化や開発の効率化など、様々な要望に応えることのできるテクノロジーであり
エンジニアとしてこれらのデータベースの知識を取得しておくことで活躍の場が大きく広がります。
また、近年ではビッグデータ時代の影響もありデーターベースに関する知識の需要は高まる一方です。
企業においては膨大なデータを扱うビジネスが急速に拡大しており、そのデータ基盤を構築しうるオープンソースデータベース技術者へのニーズや期待は非常に高いものになっており、
最新の知識やスキルを獲得することは高い市場価値をエンジニアにもたらすでしょう。
さらに、IoTの時代がきていることも関連しております。
IoTの世界が普及していくことで企業側での生成データの蓄積が進みデータ利活用による価値創造の可能性が高まっておき、データドリブンであることの重要性は増す一方で、データサイエンティストなどデータを分析できる人への期待は高まっています。
それらを実現するために重要なスキルである大量のデータを適切に管理し処理できる基盤が整備されていることや、上記の環境を構築できる技術者はまだまだ充分とは言えません。
そのようなエンジニアの育成を担うという意味でもOSS-DBは役に立つと言えるでしょう。
では、OSS-DBについてさらに詳しく説明させていただきます。
OSS-DBはOSS-DB SilverおよびOSS-DB Goldの二つの難易度によって分かれているので、まずOSS-DB Silverについて簡単に紹介させていただきます。OSS-DB Silverでは、
RDBMSとSQLに関する知識を有すること、
オープンソースデータベースに関する基礎的な知識を有すること、
オープンソースを利用して小規模なデータベースの運用管理ができること、
オープンソースを利用して小規模なデータベースの開発を行うことができること、
PostgreSQLを使ったデータベースシステムの運用管理ができること、
PostgreSQLを利用した開発でデータベース部分を担当することができることといった内容が出題されます。
受験のための実務経験や前提資格保有条件は特にありませんので誰でも受験することが可能です。試験は
一般知識(16%)、運用管理(52%)、開発/SQL
(32%)といった内容で構成されております。
一般知識では、OSS-DBの一般的特徴やリレーショナルデータベースに関する一般知識に関する知識が問われます。
運用管理では
インストール方法、標準付属ツールの使い方、設定ファイル、バックアップ方法、基本的な運用管理作業について
の知識が問われます。
開発/SQLではSQLコマンド、組み込み関数、トランザクションの概念についての知識が問われます。
次にOSS-DB Goldについて説明させていただきます。
OSS-DB Goldは
RDBMSとSQLに関する知識を有すること、オープンソースデータベースに関する深い知識を有すること、
オープンソースを利用して大規模なデータベースの運用管理ができること、
オープンソースを利用して大規模なデータベースの開発を行う事ができること、
PostgreSQLなどのOSS-DBの内部構造を熟知していること、
PostgreSQLなどのOSS-DBの利用方法やデータベースの状態を検証してパフォーマンスチューニングができること、PostgreSQLなどのOSS-DBの利用方法やデータベースの状態を検証してトラブルシューティングができることといった知識を証明することができます。OSS-DB Goldも受験制限はなく、
受験にあたり他の認定資格に合格しているなどの条件はありません。また
また、OSS-DB Exam Gold受験に際しOSS-DB Silver認定を保有している必要はありませんが、
OSS-DB Exam Goldに合格しても有意なOSS-DB Silver認定がなければOSS-DB Gold認定は取得できないとされております。OSS-DB Goldは特に商用データベースとの連携に優れ、エンタープライズ・システムでも多く活用されている「PostgreSQL 10以上」を基準のRDBMSとして採用しています。試験は
運用管理(30%)性能監視(30%)パフォーマンスチューニング(20%)障害対応(20%)といった内容で構成されております。
以上が簡単ではありますが、データサイエンティスト検定に関連するOSS-DBに関する説明とさせていただきます。
まとめ
いかがでしたでしょうか? データサイエンティスト検定について説明させていただきましたので、 参考にしてみてください。