機械学習(きかいがくしゅう、英: machine learning)とは、経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で1、人工知能の一種であるとみなされている。
典型的には「訓練データ」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなすものとされる。例えば過去のスパムメールを訓練データとして用いて学習し、スパムフィルタリングというタスクをこなす、といったものである。
定義
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E[3]。 コンピュータプログラムがタスクのクラスTと性能指標Pに関し経験Eから学習するとは、T内のタスクのPで測った性能が経験Eにより改善される事を言う。
— トム・M・ミッチェル
ここでタスクとは、プログラムが解くべき課題を指し、例えば売上予測タスクであれば「明日の売上を予測せよ」といったタスクである。
経験はなんらかのデータとしてプログラムに与えられる。このデータを訓練データもしくは学習データといい、売上予測タスクであれば例えば「過去の経験」である今日までの売上が訓練データとして与えられる。訓練データを使ってプログラムの性能を改善する過程を、「プログラムを訓練する」もしくは「プログラムを学習させる」という。またプログラムの訓練に用いられるデータ全体の集合を(訓練もしくは学習)データセット(データ集合とも)という。
最後に性能指標は、プログラムがタスクをどの程度の性能で達成したかを測る指標で、前述の売上予測タスクであれば、例えば実際の売上との誤差を性能指標として用いる事ができる。
機械学習は以下の分野と密接に関係する:
計算統計学(英語版):計算機を使った予測に焦点を当てた分野
数理最適化:定められた条件下における最適解の探索に焦点を当てた分野
データマイニング:教師なし学習(後述)における探索的データ解析に焦点を当てた分野注 1
機械学習という名前は1959年にアーサー・サミュエルによって造語された[6]。
理論
機械学習アルゴリズムとその性能についての分析は、理論計算機科学の一分野であり、計算論的学習理論(英語版)と呼ばれている。訓練例は有限であるのに対して、未来は不確かであるため、学習理論は一般にアルゴリズムの性能を保証できない。その代わりに、性能の確率的範囲を与える。 Wassily Hoeffding(英語版)によるヘフディングの不等式(英語版)など統計的学習理論という表現もある[7]。
それに加えて、学習の時間複雑性と実現可能性についても研究している。計算論的学習理論では、多項式時間で終了する計算を実現可能とみなす。
機械学習と統計学は、多くの点で似ているが、使用する用語は異なる。
评论 (0)