支援対象地域:札幌、仙台、関東、愛知、関西、広島、福岡

  • TOP
  •   
  • コラム
  •   
  • データサイエンティストを目指す人に向

はじめに

天気や季節、その土地に住む人、来る人の趣向や年齢層、年収、これらはスーパーやコンビニ、デパート等の仕入れ品や量や、テナントに入れる店を決めるため等に大いに役立つデータです。実際これらのデータを使用して商売・ビジネスに生かしている企業は多くなってきています。病院で治療方針を決める方法の一つとしてデータが重要視されている場合もあります。

これらデータの活用は何も今に始まったことではなく、これまでも人間が自然に行っていたことです。しかし人間が記憶できるデータ量には限界があり、多くのデータを取ろうと思ったらそのためにたくさんの時間が必要となり、さらに管理や分析にも時間を使い、本業が疎かになりかねません。そのため、これらをコンピュータに任せてしまおうという状況になったのがここ最近のビジネスの動向です。

以上のことからわかるように、データを活用するITサービスはIT業界の中だけで普及しているものではなく、飲食、販売、配送、医療といった全く異なる業界においてもビッグデータやAI、IoTという形で取り入れられています。便利になったものを排除することは文明の進化の歴史を見る限り考えづらいので、この流れはこれからも続くことでしょう。

この記事では、そんなIT業界の大きな潮流の一つとなるビッグデータを扱う職業「データサイエンティスト」と、データサイエンティストとなった際に役立つ資格「統計検定」について紹介していきます。これからデータサイエンティストとして就職・転職しようと思っている方、IT業界でエンジニアとしてスキルアップしたい方、データ分析や統計に関する勉強をしたい方はぜひ読み進めてみてください。

データサイエンティストとは?

2022年現在、ニュース等を見ていると「DX(デジタルトランスフォーメーション)」という言葉が頻繁に飛び交っています。このDXは直訳すると「デジタル変革」であり、日々進化しているデジタル技術を、ビジネスに限らず日常生活にも積極的に導入し、より便利で生活しやすい状態へ昇華させることを表しています。

DXは2004年にスウェーデンのある大学の教授によって提唱されたものですが、この流れを日本国内で感じている人も多いのではないでしょうか。例えば一昔前にインターネットと接続する機器と言えば、パソコンやスマートフォン、ゲームでした。しかし近年は様々な家電がインターネットに接続され、Alexa、Googleアシスタント、Siri等を搭載したスマートスピーカーと接続することで手を触れずに電源のオン・オフができる、スマートフォンから遠隔でも操作可能といったことが当たり前になっています。

上記の技術は今後のDXを考えるとほんの氷山の一角に過ぎませんが、ITサービスがこれまでITに縁のなかった人々の生活にも溶け込むという傾向は着実に進んでいます。またビジネスにおいては、データの活用、データの重要性について多くの企業が注目しています。そしてデータに価値を見出している企業においては、専門職を雇っていることがあります。その一つが「データサイエンティスト」で、企業によっては「データアナリスト」と呼ばれる場合や、それぞれ別の職業として異なる仕事が与えられている場合もあります。特に金融や官公庁、製薬などの「ビッグデータ」と呼ばれる膨大なデータの管理や分析を行っている業界では、これら専門職の導入は欠かせないと言えます。

データサイエンスについて

そもそも「データサイエンス」とは何を指すかという点を簡単に解説します。データサイエンスを端的に表すと、統計学やデータ分析・データ解析を行ってビジネス、社会、化学等に有益な知見をもたらす学問となります。冒頭に挙げた仕入れ予測や、医療でのデータ活用、またオンラインショップや音楽・動画配信サイトのレコメンド機能もその一つです。このデータサイエンスを専門に行う職業をデータサイエンティストと言います。

データサイエンスという言葉は、多くの人が平成の後半に入ってから出てきた言葉と思うかもしれませんが、実は、まだパソコンが今のように普及するとは想像も付かない1960〜1970年代頃にはすでに登場していたと言われています。しかし、その後はしばらくデータサイエンスが大きく取り上げられることはなく、90年代に入ってようやくIT革命が世界的に謳われるようになり、パソコンやインターネットが普及すると共に、データ分析や機械学習を実用化する企業等が出てくるようになりました。次第に「データベース・マーケティング」「データマイニング」という言葉が使われるようになったのもこの頃です。

2000年代に入るとデータ活用の動きは加速し、ディープラーニングによる人工知能の進化、データサイエンティストの誕生、ビッグデータという概念の提唱等の動きが見られるようになりました。2012年には、ハーバード・ビジネス・レビュー誌において「データサイエンティストは21世紀で最もセクシーな仕事」と言われたほど、データを扱う職業も次第に注目されるようになり、日本でも各企業で広がり始めました。

時代を経るに連れてコンピュータの性能、インターネット等のインフラ環境が進化・発展し、膨大なデータを扱える環境が整い、スマートフォンやタブレットの登場といったコンピュータの小型化等も進んだことで、データサイエンスがより現実的になったとも言えます。

データアナリストとの違い

データアナリストとの比較から、さらにデータサイエンティストがどのような職業であるかを見ていきましょう。データアナリストは、「アナリスト(分析家)」と付いているように、データの収集や分析をメインとする職業で、分析ツールを使いこなし、レポート作成を行うことが求められます。

対してデータサイエンティストは、アナリストによって分析された結果と企業の持つ課題等を照合し、解決策を導く役目を求められていて、コンサルタントに近い仕事内容となります。

近年ではツールの進化によって、データアナリストの業務はマーケティングでも担えるようになっていたり、データサイエンティストがデータアナリストの業務を兼任していたり、逆にデータアナリストがデータサイエンティストの業務まで担っていたりと、収集や分析といった純粋なアナリストとしての業務だけを行うということは少なくなってきています。そのため、この二つの職業は無理に分類する必要はないと言えるでしょう。

求人においても、それぞれ分かれて存在している場合、兼任となっている場合、はたまたマーケティング等の別の職種に含まれている場合など様々なので、データサイエンティストを希望している場合は、入社してから実際にやりたいことと違ったという結果にならないよう、具体的な仕事内容まで見ることをおすすめします。

必要なスキルについて

データサイエンティストとして必要なスキルを3つ紹介します。一つ目は、基礎数学、データの検証・分析方法、機械学習技法、統計学、ビッグデータといった専門知識です。一つと言いながら複数の項目が含まれていて驚かれた方もいるかもしれませんが、データサイエンティストは、これだけ幅広く豊富な知識が求められるということです。近年では海外だけではなく、日本国内にデータサイエンス学部を設ける大学も出てきている程です。

二つ目はプログラミング、環境構築といったエンジニア的な知識・スキルです。プログラミング言語としては、統計に適しているR言語や、機械学習に適しているPython等でコーディングできる程の知識が必要です。データベースを操作するSQLの知識が必要になることもあるでしょう。加えて、データ解析、統計分析、解析結果の可視化ができるソフト「SAS(Statistical Analysis System)」等のツールが使いこなせる知識、それら環境を構築できる知識が必要です。もちろんデータの中には個人情報を含む場合もあるので、セキュリティに関する知識も欠かせません。

三つ目はコミュニケーションスキルです。ほとんどの職種において必要になるスキルですが、データサイエンティストは、社内外へ向け、解析結果を基に課題解決できる方法を提案したり、ビジネスの方針を示したりとコンサルティングも行わなければならず、これを行うためにはコミュニケーションスキルが必要不可欠です。また、プロジェクトが発足された場合、データサイエンティストはどちらかというと管理側の比重が多くなるため、マネジメントすることが多くなりますが、この際にもコミュニケーションスキルは欠かせません。

今回は以上三つに絞って紹介しましたが、他にも細かく見ていくと、ITの総合的な知識やビジネスの動向を把握し、的確な提案ができるようなビジネススキル、データ加工・処理能力、論理的思考、課題解決能力等も求められます。

データサイエンティストの仕事で利用する技術について

データサイエンティストは、具体的にどのようなツールを利用して仕事をしていくかについても触れておきます。利用されるツールは大きく、データ準備、データ・ビジュアライゼーション、機械学習、ディープ・ラーニング、パターン認識、テキスト・アナリティクスの6種類に分類できます。

「データ準備」では、整理されていない元のデータを何らかのフォーマットに当てはめ、その後の作業で利用しやすい状態にします。「データ・ビジュアライゼーション」では、分析結果が把握しやすいように図形、グラフィック等で表現します。「機械学習」では、データを数学的アルゴリズムと自動処理で扱います。「ディープ・ラーニング」は機械学習の一つですが、データ全体または部分的なそれぞれの粒度での概念を多層化してデータのルールやパターンを学習します。「パターン認識」も機械学習の一つで、主にパターンを把握します。「テキスト・アナリティクス」は、整形されていない非構造化データを使用して、潜在的なニーズ等を導き出します。データサイエンティストは、これらの機能がパッケージされたソフトウェア、あるいは一つ一つ独立したソフトウェアを利用して業務を行います。

データサイエンティストの将来性について

繰り返しとはなりますが、付加価値の生み出せるデータサイエンティストは、今後も需要が続くと言えます。一方で、これからAIでの対応ができるようになる可能性があるデータ収集や加工、分析といったルーチンワークとも言えるスキルしかない場合は、データサイエンティストとしての採用の決め手に欠ける可能性があります。新卒・第二新卒程度であればこれからキャリアが積めるので、それを見越した採用があるかもしれませんが、年齢を重ねて即戦力が求められている状態であると、それらのスキルを使った結果、さらに何ができるのかという部分を求められることでしょう。

いずれにしてもデータに価値を見出している企業が増加している現状はあるので、データサイエンティスト全体としての需要は今後も見込める状況です。前述したように、データサイエンス学部を設ける大学で出てきたことも、これを物語っています。データサイエンティストになりたいという方は、コンサルティング能力に長けている、専門知識を極めている、テクニカルにおけるスペシャリストである等、自分にしかない特徴を身に付けて、業界内外にかかわらず様々な場所で、長く活躍できるデータサイエンティストとなることをおすすめします。

データサイエンティストに役立つ資格「統計検定」とは?

以上、データサイエンティストがどのような職業であるかを紹介してきましたが、データサイエンティストを目指す際におすすめの資格があります。それが「統計検定」ですが、これはITサービスにかかわらず、医療系、金融系、研究開発、市場調査等で有効な統計に関する知識や活用力を証明できる資格で、日本統計学会が認定しています。2011年発足と比較的歴史の浅い資格試験で、新たな試験も後から加わり、2022年12月時点では全部で10種類の試験が設定されています。

10種類の試験の特徴を紹介します。「統計検定4級」は10種類の中で一番簡単な試験であり、中学生レベルに該当します。内容としては、データや表・グラフ、確率に関する基礎知識が問われます。「統計検定3級」は高校生レベルに該当し、データ分析に必要な概念について問われます。「統計検定2級」と「統計検定準1級」は大学生レベルに該当し、1・2年次で学ぶ基礎統計学の知識と、問題解決能力、実社会での統計学の適切な活用力が問われます。「統計検定1級」は統計数理と統計応用の2試験で構成されており、大学3・4年次で学ぶ実社会の幅広い分野におけるデータ解析が可能な程の統計専門力が問われます。両方に合格することで資格が認められます。

また、公的・民間統計の利用能力が問われる試験として「統計検定 統計調査士」「統計検定 専門統計調査士」の2種類があります。「統計調査士」は3級に該当する統計の基礎知識と、社会人が必要とされる公的統計やその活用力が問われます。「専門統計調査士」は2級に該当する専門知識と、実社会や経済で利用されるレベルの統計、調査データの作成、利用上の注意点といった調査に関する総合的な知識が問われます。

残り3つはいずれも2021年に新設された試験で、データの活用能力が問われる内容が「基礎」「発展」「エキスパート」の3レベルに分けられています。「統計検定 データサイエンス基礎(DS基礎)」ではデータハンドリング技能、データ解析技能、解析結果の適切な解釈について問われます。「統計検定 データサイエンス発展(DS発展)」では大学教養レベルの数理、情報、統計、倫理・AIに関する知識が問われます。「統計検定 データサイエンスエキスパート(DSエキスパート)」は大学専門レベルとなる計算、統計、モデリング、領域知識に関する知識が問われます。統計検定は2022年時点で、以上の10種類で構成されています。

試験概要

統計検定はいずれの試験も特に受験資格がないため、誰でも受験可能です。なお1級以外の試験は全てコンピュータ上で行えるCBT方式の試験となり、1級だけが問題冊子を解くPBT方式となることにご注意ください。また、使用可能な電卓は四則演算、百分率、平方根の計算が可能な普通電卓(一般電卓)または事務用電卓と指定されており、金融電卓、プログラム電卓、電卓機能が付いた携帯端末等、電卓以上の機能が付いたものは禁止されています。 持ち込み可能な電卓は1台のみで、忘れた場合も会場での貸出は行われておらず、試験前に電卓のチェックをされる場合もあります。

2022年時点の受験料は税込で、4級が5,000円、3級が6,000円、2級が7,000円、準1級が8,000円、1級は「統計数理」「統計応用」それぞれ6,000円(同時受験の場合は2つで10,000円)、統計調査士、データサイエンス基礎(DS基礎)が7,000円、専門統計調査士が10,000円、データサイエンス発展(DS発展)が6,000円となっています。1級以外は学割の適用が可能で、試験によって1,500〜2,000円が割引されます。なお、現時点で「DSエキスパート」に関しては試験料金が設定されていませんでした。

資格試験の仕組みは、海外の組織が認定しているものであると詳細が分かりづらかったり、日本独自のものであっても試験の構成が複雑であったりということがありますが、統計検定に関しては非常にシンプルで、公式ページ(www.toukei-kentei.jp)も分かりやすく記載されているので、実際に試験を受ける場合も安心です。試験の申し込みも公式ページ上から可能である他、過去問の掲載、関連書籍やセミナーの紹介もあります。

「統計検定」に持っていると役立つ資格を紹介

その他、合わせて持っていると役立つ資格について3つに絞って紹介します。

基本情報技術者試験(FE)

コンピュータ関連の資格試験としては有名で、IPA(情報処理推進機構)が実施する国家資格となります。データサイエンティストはもちろん、その他IT業界で働く方であれば必要となるコンピュータに関する基礎知識が広く問われる試験で、プログラミング全般、データ構造、アルゴリズム、情報セキュリティ等の問題が出題されます。すでに業界で働いている方であれば勉強しなくても回答できる部分はありますが、普段意識しない詳細な部分まで問われることがあるので、合格するには勉強が必要となるレベルの試験です。基本情報技術者試験の上位資格として「応用情報技術者試験(AP)」もあります。

データベーススペシャリスト試験(DB)

同じくIPAの実施する資格試験で、データベースシステムの構築、企画、要件定義、運用・保守といった一連の業務が主体的に行えるような知識が問われます。そのため、データサイエンティストとなった際の、基礎的な技術面のスキル・知識として役立つと言えます。

Python3 エンジニア認定データ分析試験

Pythonは、データサイエンティストになった際に利用する可能性の高いプログラミング言語の一つです。試験は「基礎試験」と「データ分析試験」の2種類があり、前者ではPythonの文法に関する知識が問われますが、「データ分析試験」ではPythonを使ったデータ分析に特化し、「NumPy」「Pandas」「Matplotlib」「scikit-learn」といったデータ分析に利用されるライブラリや開発環境の「「upyter Notebook」、また数学の知識について問われるようになります。なお、特に「基礎試験」に受かっていないと受験できないということはないので、すでにPythonの知識は習得しているということであれば、「データ分析試験」だけ受験することも可能です。

まとめ

今回紹介したように、データサイエンティスト、データサイアナリストは、今後のビジネスにおいても重要な役割を持っています。しかし、単にデータを集取、分析、予測を行うことは、AIの発展等もあり、コンピュータでもある程度可能となります。そのため、これらの職業を目指す場合は、プラスで人間でしかできないコミュニケーション、交渉、コンサルティング、総合力等の能力を習得しておく必要があります。これらの能力を持っていることで長い間、また様々な分野で力が発揮できるエンジニアになれることでしょう。

すでにデータサイエンティストであるものの知識が不足していると感じる方や、これから目指すために少しでも多くの知識を得ておきたいという方は、ぜひ「統計検定」をはじめとした資格の習得を検討してみてはいかがでしょう。