カンペ
G検定
各国の経済成長戦略
日本 : 新産業構造ビジョン
イギリス : RAS 2020 戦略
ドイツ : デジタル戦略2025
中国 : インターネットプラスAI3年行動実施
製造業のデジタル戦略
ドイツ : インダストリー4.0
中国 : 中国製造2025
評価関数
回帰
MSE(平均二乗誤差):答えと予測のずれを二乗した値の平均
MAE(平均絶対値誤差):値域:0~∞
RMSE(二乗平均平方根誤差):値域:0~∞
決定係数:値域:0~1
分類
Accuracy:値域:0~1
AUC:2値分類問題で利用(値域:0.5~1)
LogLoss:多値分類問題に対応可能(値域:0~∞)
「半導体性能と集積は18ヶ月ごとに倍増する」
Attention
時間の重みをネットワークに組み込んだ手法
入力データの一部分に注意するよう重みづけを行うことで、重要な情報を取り出せるようにした。代表手法として「seq2seq」モデルに適応された
※ ただしデータが少ないとき成果が出にくい。
データ不足を補うことはできない。
国際的な議論のためのAI開発ガイドライン案
2018年制定
① 連携の原則
② 透明性の原則
③ 制御可能性の原則
④ 安全の原則
⑤ セキュリティの原則
⑥ プライバシーの原則
⑦ 倫理の原則
⑧ 利用者支援の原則
⑨ アカウンタビリティの原則
人間中心のAI社会原則
7つの項目
「人間中心の原則」
「教育・リテラシーの原則」
「プライバシー確保の原則」
「セキュリティ確保の原則」
「公正競争確保の原則」
「公平性、説明責任及び透明性の原則」
「イノベーションの原則」
55 56 57 58 59 60
ディープラーニングを含めて機械学習において精度の高い学習をするためには,観測データの適切な前処理が必須である.異なるスケールの特徴量を同時に扱えるようにするために,平均を 0 に分散を 1 に規格化する(ア)や,特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る(イ)などは広く利用されている.また,画像処理の分野においては,減算正規化と除算正規化の処理を行う(ウ)などが前処理として利用され,(エ)などの画像処理に特化したライブラリで行うことができる.また,自然言語処理の分野においては,文章に単語が含まれているかどうかを考えてテキストデータを数値化する(オ)や文章に含まれる単語の重要度を特徴量とする(カ)などがある
最もよくあてはまる選択肢
(ア)標準化
(イ)主成分分析(PCA)
(ウ)局所コントラスト正規化
(エ)OpenCV
(オ)bag-of-words
(カ)TF-IDF
61
強化学習の説明として誤りである選択肢を 1 つ選べ
1 正解データ付きの訓練データを用意する必要がない
2 一般的に学習には時間がかかる
3 状態遷移を考慮することができる
4 汎用性が高く異なるタスクへの転移が容易である
正解 4
62 63 64
生成モデル(generative model)とは,訓練データからそのデータの特徴を学習し,類似したデータを生成することができるモデルである.ディープニューラルネットの生成モデル(generative model)の例として,自己符号化器の潜在変数に確率分布を導入した(ア)や,訓練データと生成器が生成したデータを識別器で判別させることによって学習を進める(イ)がある
(ア)VAE
(イ)GAN
64
(ア)はディープラーニングにおける重要な課題の一つであり,学習済みのディープニューラルネットモデルを欺くように人工的に作られたサンプルのことである.サンプルに対して微小な摂動を加えることで,作為的にモデルの誤認識を引き起こすことができる.
(ア)adversarial example
RBM (制限付きボルツマンマシン)
学習が収束しやすいよう
「可視層(入力層)」と「隠れ層」のみの
浅い2層のニューラルネットで構成
可視層に入力されたデータは活性化関数を経て隠れ層へ
→ 入力値として隠れ層でデータが処理され可視層へ出力
可視層と隠れ層を行き来して学習がススム
第一次ブーム1960
推論と探索・実用に足りない
第二次ブーム1970−1980
知識の時代・エキスパート課題・オントロジー
第三次ブーム
最尤推定法
パラメータθはただ一つ求まる
↓
パラメータθは全部の標本は同じだよ
*これを最尤推定法(さいゆうすいていほう)
弱点
個体ごとにθが異なる場合
群団ごとにθが異なる場合
データがバラバラになると分布と関数に解離が生じてしまう
18
前処理
画像データの前処理(トリミング、ヒストグラム平均etc)
事前学習
DNN
オートエンコーダを順番に学習していく手順
↓ちなみに
「順番に学習していく」ことにより、それぞれの隠れ層の重みが調整されるので、全体的に重みが調整されたネットワークができる
ヒントン
Deep Belief
DNN
正規化線形関数=ReLU
19
勾配消失起こらない順
ReLU関数 = 正規化線形関数
20
分散させて&処理をさせる
↓
並列処理を行うためのプログラミングモデル
「効率よく結果が出せる」
DistBelief
(2012 年に提案された分散並列技術)
Googleが開発した深層分散学習(ResNet,GPU,Chainerとかそのへん)のフレームワーク
2012 年に提案された分散並列技術
22
内部共変量シフト
ある層の入力がそれより下層の学習が進むにつれて変化する
バッチ正規化
内部共変量シフトの対策はバッチ正規化が使用される
24
パディング
出力画像のサイズを調整するために元の画像の周りを固定の値で埋める
空いてるとことに詰め込むこと
余白の調整とか
畳み込みのフィルターを動かす幅のこと
回帰代入法
回帰モデルの予測値を代入する
25
最大プーリング
平均プーリング
Lpプーリング(平均と最大を包括したもの)
↑
プーリング層では畳み込み層の出力を圧縮するプーリングを行う
26
バイアス = ハイパーパラメータの一種
27
ホールドアウト
訓練データを2分割
モデルを学習する際に、データセットを訓練データと検証データに分割し、訓練データで学習したモデルを検証データで評価する手法
クロスバリデーション(交差検証法)
訓練データを3分割以上
モデルを学習する際に、データセットを分割し、訓練データと検証データを交代させて精度を測る手法
ハイパーパラメータのチューニング方法
ランダムサーチ
考えられるパラメータの範囲を決め、ランダムにパラメータを組み合わせて学習させ、最も良いハイパーパラメータを探す方法
グリッドサーチ
これ良いなっていう(適切な)パラメータを複数用意し、それらの値の組み合わせを全通り総当たり(時間がかかる)し、最も良いハイパーパラメータを探す方法
ハイパーパラメータ人間がやると大変だからこれにやらせる方法
効率的に探したい
↓
↓
28
ベイズ最適化
形状がわからない関数の最大値/最小値を求める
過去の試行結果から次に行う範囲を確率分布を用いて計算する手法
効率的なチューニング方法
獲得関数
ファインチューニング
学習済みモデルの層の重みを微調整する手法
33
層ごとの貪欲法
単層の自己符号化器に分割し入力層から繰り返し学習させる
34
・ノイズ除去
・ニューラルネットの事前学習
・異常検知
↑
自己符号化器の代表的な応用例
36
RNN
時間軸に沿って深いネットワーク構造を持つため
↑
勾配消失問題理由
NN
活性化関数に対してニューラルネットワークの層が深すぎる。
↑
勾配消失問題理由
38
back-propagation through time
誤差が時間をさかのぼって逆伝播して反映すること
39
DNNの学習の目的は出力関数を最小化すること
40
勾配降下法にはパラメータの勾配を数値的に求めると
計算量が膨大
43
学習率
勾配降下法においてパラメータの更新量を決める学習率の決定は重要
損失(ロス)関数を最小にすることが目標
ハイパーパラメータ、勾配に沿って一度にどれくらい下るか
ややこしい
損失関数 = 誤差関数 = コスト関数
出力 = モデルの結果
バイアス
傾向
45
アンサンブル学習
ブースティング
ベースとなる学習器(決定木/線形分類etc)が必要
この学習器をレベルアップ(学習データに変化を加える)していく手法
→勾配ブースティング、AdaBoost, XGBoost, LightGBM
バギング
レベルアップではなくモデルの平均をとって良いモデルを作る手法
バギングは消したりしながらいくつかのモデルを作り、それらの平均をとる
→ランダムフォレスト
⭐︎スタッキング
モデルを積み上げていく方法
48
谷での振動
49
最適化手法(局所的最適解etcの解決手法)
・SGD
・Momentum SGD
SGDに慣性をもたせたもの
過去の勾配を平均するため0に近くなりスムーズにパラメータが更新
・NAG(Nesterov Accelerated Gradient)
Momentumに比べて一歩先の点で勾配を求めて進んでいく
オーバーシュートが軽減
・RMSProp
NAGに似てる
SGDに比べて勾配の小さい方にもパラメータが更新される
・Adam
Momentum+RMSProp
Mom(緑)に似てる
画像、自然言語でも使われる
勾配の平均と分散をオンラインで推定し利用する
・AdaGrad
超早い
勾配を二乗した値を蓄積
勾配降下法で自動的に学習率を調整することができる
・Adadelta
AdaGradの発展系
56
主成分分析(PCA)
特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る
57
白色化(正規化)
各特徴量を無相関化したうえで標準化する、計算コストが高い
画像系
局所コントラスト正規化(正規化)
減算正規化と除算正規化の処理を行う
画像処理で利用される
グレースケール化
カラー画像を白黒画像に変換して計算量を削減する
平滑化
細かいノイズの影響を除去する
58
59
bag-of-words
テキストデータを数値化
60
TF-IDF
単語の重要度を特徴量
TF 単語の出現頻度
IDF 逆文書頻度
出現率が高い&重要な単語に大きい値
61
強化学習の説明として誤りである選択肢を 1 つ選べ.
正解データ付きの訓練データを用意する必要がない
一般的に学習には時間がかかる
状態遷移を考慮することができる
汎用性が高く異なるタスクへの転移が容易である
64
adversarial example
85
バッチサイズ
イテレーション(重み更新)に用いるサンプル数
91
蒸留
過学習を緩和する
95&96
CNN
畳み込み層 <全結合層
↑
こっちの方がパラメータ数少ない
97&98
重み共有によって
有用な特徴量を画像の位置によって大きく変化させない
99?
一般社団法人人工知能学会は,9 つの指針
101?
第一次第二次いつ?
102
だれ?
Andrew Ng
Yann LeCun
Facebook 社が招いたディープラーニングの研究者
バギング
ブースティング
104
言語データによるRNNや映像データからの概念や知識理解を目指す
UC Berkeley
実世界(ロボット)対象 知識理解を目指す
オンライン空間上対象 知識理解を目指す
(デミス・ハサビスにより設立、AlphaGo、ブロック崩し採用、WaveNet=音声合成&音声認識)
110
誤差逆伝播学習
112
極小値
ニューラルネットワークの学習の目的関数は多く持つ
117
ヨシュア・ベンジオ(DLの父のひとり)
人間の知識では気づけない共通点→「良い表現」
・複数の説明変数の存在
・時間的空間的一貫性
・スパース性
118
DLのアプローチとして注目
・説明要因の階層的構造
・タスク間の共通要因
・要因の依存の単純性
122
<教師なし>
異常検知はSVM(OneClassSVM)のアルゴリズムを使って基にセキュリティシステムなどに使用される
125
ユルゲン・シュミットフーバー(AIの父)&ゼップ・ホフレイター(ケプラー大学)
google 翻訳に使用=LSTM 提唱
131参照
126
ディープラーニングの画像認識への応用先
・クラス分類
・物体検出
127
ResNet(残差ネットワーク)誕生
深い階層構造→精度の高い認識や分類が可能→パラメータの数が膨大
128
2014年に考案されたR-CNN
2015に考案されたFaster R-CNN
2016年に 考案されたYOLO
(全てのアルゴリCNNの技術が内部で使用されている)
128&129
物体検出
・対象物がどこにあるかをボックスに切り取り、対象物を推定するタスク
物体セグメンテーション
・対象としている画像のそのものが何かを推定するタスク
131
LSTM
CNNから得られた特徴を入力すると生成することが可能である
125参照
136
End to End Learning
最初の入力と最終の出力までを一括で、という意味合い
137-139
<1990 年代の音声認識はHMMとNグラム法の両方でできている>
隠れマルコフモデル(HMM)
・音自体を判別するための音響モデル
Nグラム法 n-gram
・語と語のつながりを判別する言語モデル
↓
<ディープラーニング・RNNの登場>
End to End モデルというアプローチから人的に前処理なしで解析が可能
140−143
・(ディープラーニング)ソフトウェアフレームワークを利用して実装するのが一般的である
・役割=データを用いて学習・予測を実行するのが(ディープラーニング)フレームワーク
ネットワーク二つの記述方法
設定ファイル
→ Caffe やCNTK
・テキストでモデルの定義が設定できる
・簡単に学習開始が出来る
プログラム
・TensorFlow や Chainer
・一度書き方を覚えてしまえば複雑なモデルでも比較的簡単に記述することが出来る
・ソフトウェアに依存してしまうという問題あり
フレームワーク 開発
・Tensorflow Google社 設定ファイル/ネットワーク記述=Caffe やCNTK
↓(ラッパーとして機能する)
・Keras Google社 設定ファイル/ネットワーク記述=Caffe やCNTK
・Chainer PreferredNetworks社 プログラム/ネットワーク記述=TensorFlow? PyTorch や Chainer
(Define-by-Runという形式を採用)
・PyTorch Facebook社
※Chainer2019年12月開発終了→PyTorchに移行
144-151
線形モデル(単回帰モデル)とは説明変数を含む項の線形結合
説明変数を含んだ数式の出力値は被説明変数
一次元のデータの場合:
y = b0 + b1 * x
各項の係数(例えば b0, b1)をパラメータと呼ぶ
被説明変数が連続の値を取り扱う場合 = 回帰
離散の値を取り扱われる場合 = 分類
2次元以上の場合:
重回帰モデル
各項の係数パラメータ = 偏回帰係数
モデルから出力された値と実際の測定値の誤差 = 残差
152-154
157
SGD確率的
最適化のパラメータを見つけるアルゴリズム
161-162
165
169
191
196-198
212-215
損失関数
回帰問題=平均二乗誤差関数
分類問題=交差エントロピー誤差関数
↓
KL ダイバージェンス
分布を直接学習する際に使用
L1 正則化 ラッソ回帰
重みの絶対値の総和(に強度をかけたもの)
L2 正則化 リッジ回帰
重みの2乗の総和(に強度をかけたもの)
損失関数にパラメータの二乗ノルムを加えられたもの
223
237
2015 年に google=Deep Dream
画像生成
238
雑音・残響抑圧
音声を認識したい対象とそれ以外の雑音に分離する
自動運転について
自動運転のレベル0〜5までの概要と特徴およびその法規制について
- 【従来通り:レベル0】 ドライバーがすべてを操作
- 【運転支援:レベル1】システムがステアリング操作、加減速のどちらかをサポート
- 【運転支援:レベル2 】システムがステアリング操作、加減速のどちらもサポート
- 【自動運転:レベル3】 特定の場所でシステムが全てを操作、緊急時はドライバーが操作
- 【自動運転:レベル4】 特定の場所でシステムが全てを操作
ドローンの法制度について
特にドローンの飛行禁止空域などに関して何問か出題されていた
原則飛行は禁止で、飛行させる場合は国土交通省の手続きを経て許可を受ける必要がある区域
- 空港周辺
- 150m以上の上空
- 人家の集中地域
VGG16
オックスフォード大のチームが開発した
WaveNet
DeepMind開発音声波形を生成するためのNN