カンペ - ki_ji’s blog

G検定

各国の経済成長戦略
日本 : 新産業構造ビジョン
イギリス : RAS 2020 戦略
ドイツ : デジタル戦略2025
中国 : インターネットプラスAI3年行動実施

製造業のデジタル戦略
ドイツ : インダストリー4.0
中国 : 中国製造2025

評価関数

回帰
MSE(平均二乗誤差):答えと予測のずれを二乗した値の平均
MAE(平均絶対値誤差):値域:0~∞
RMSE(二乗平均平方根誤差):値域:0~∞
決定係数:値域:0~1

分類
Accuracy:値域:0~1
AUC:2値分類問題で利用(値域:0.5~1)
LogLoss:多値分類問題に対応可能(値域:0~∞)

ムーアの法則

「半導体性能と集積は18ヶ月ごとに倍増する」

Attention

時間の重みをネットワークに組み込んだ手法

入力データの一部分に注意するよう重みづけを行うことで、重要な情報を取り出せるようにした。代表手法として「seq2seq」モデルに適応された

※ ただしデータが少ないとき成果が出にくい。
データ不足を補うことはできない。

国際的な議論のためのAI開発ガイドライン案

2018年制定

① 連携の原則
② 透明性の原則
③ 制御可能性の原則
④ 安全の原則
⑤ セキュリティの原則
⑥ プライバシーの原則
⑦ 倫理の原則
⑧ 利用者支援の原則
⑨ アカウンタビリティの原則

人間中心のAI社会原則

7つの項目
「人間中心の原則」
「教育・リテラシーの原則」
「プライバシー確保の原則」
「セキュリティ確保の原則」
「公正競争確保の原則」
「公平性、説明責任及び透明性の原則」
「イノベーションの原則」

55 56 57 58 59 60

ディープラーニングを含めて機械学習において精度の高い学習をするためには,観測データの適切な前処理が必須である.異なるスケールの特徴量を同時に扱えるようにするために,平均を 0 に分散を 1 に規格化する（ア）や,特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る（イ）などは広く利用されている.また,画像処理の分野においては,減算正規化と除算正規化の処理を行う（ウ）などが前処理として利用され,（エ）などの画像処理に特化したライブラリで行うことができる.また,自然言語処理の分野においては,文章に単語が含まれているかどうかを考えてテキストデータを数値化する（オ）や文章に含まれる単語の重要度を特徴量とする（カ）などがある

最もよくあてはまる選択肢

（ア）標準化

（イ）主成分分析（PCA）

（ウ）局所コントラスト正規化

（エ）OpenCV

（オ）bag-of-words

（カ）TF-IDF

強化学習の説明として誤りである選択肢を 1 つ選べ

1 正解データ付きの訓練データを用意する必要がない
2 一般的に学習には時間がかかる
3 状態遷移を考慮することができる
4 汎用性が高く異なるタスクへの転移が容易である

正解　4

62 63 64

生成モデル（generative model）とは,訓練データからそのデータの特徴を学習し,類似したデータを生成することができるモデルである.ディープニューラルネットの生成モデル（generative model）の例として,自己符号化器の潜在変数に確率分布を導入した（ア）や,訓練データと生成器が生成したデータを識別器で判別させることによって学習を進める（イ）がある

（ア）VAE

（イ）GAN

（ア）はディープラーニングにおける重要な課題の一つであり,学習済みのディープニューラルネットモデルを欺くように人工的に作られたサンプルのことである.サンプルに対して微小な摂動を加えることで,作為的にモデルの誤認識を引き起こすことができる.

（ア）adversarial example

RBM (制限付きボルツマンマシン)

学習が収束しやすいよう

「可視層(入力層)」と「隠れ層」のみの

浅い２層のニューラルネットで構成

可視層に入力されたデータは活性化関数を経て隠れ層へ

→ 入力値として隠れ層でデータが処理され可視層へ出力

可視層と隠れ層を行き来して学習がススム

第一次ブーム1960　

推論と探索・実用に足りない

第二次ブーム1970−1980　

知識の時代・エキスパート課題・オントロジー

第三次ブーム

ディープラーニング

最尤推定法

パラメータθはただ一つ求まる

↓

パラメータθは全部の標本は同じだよ

＊これを最尤推定法（さいゆうすいていほう）

弱点

個体ごとにθが異なる場合

群団ごとにθが異なる場合

データがバラバラになると分布と関数に解離が生じてしまう

前処理

機械学習

画像データの前処理（トリミング、ヒストグラム平均etc）

事前学習

DNN

オートエンコーダを順番に学習していく手順

↓ちなみに

「順番に学習していく」ことにより、それぞれの隠れ層の重みが調整されるので、全体的に重みが調整されたネットワークができる

ヒントン

Deep Belief

DNN

正規化線形関数＝ReLU

勾配消失起こらない順

ReLU関数　＝　正規化線形関数

Tanh関数　＝　双曲線正接関数

シグモイド関数　

Hadoop

分散させて＆処理をさせる

↓

MapReduce

並列処理を行うためのプログラミングモデル

「効率よく結果が出せる」

DistBelief
(2012 年に提案された分散並列技術)

Googleが開発した深層分散学習(ResNet,GPU,Chainerとかそのへん)のフレームワーク
2012 年に提案された分散並列技術

内部共変量シフト

ある層の入力がそれより下層の学習が進むにつれて変化する

バッチ正規化

内部共変量シフトの対策はバッチ正規化が使用される

パディング

出力画像のサイズを調整するために元の画像の周りを固定の値で埋める

空いてるとことに詰め込むこと

余白の調整とか

ストライド

畳み込みのフィルターを動かす幅のこと

回帰代入法
回帰モデルの予測値を代入する

最大プーリング

平均プーリング

Lpプーリング(平均と最大を包括したもの)

↑

プーリング層では畳み込み層の出力を圧縮するプーリングを行う

バイアス ＝ハイパーパラメータの一種

ホールドアウト
訓練データを2分割

モデルを学習する際に、データセットを訓練データと検証データに分割し、訓練データで学習したモデルを検証データで評価する手法

クロスバリデーション(交差検証法)　

訓練データを3分割以上
モデルを学習する際に、データセットを分割し、訓練データと検証データを交代させて精度を測る手法

ハイパーパラメータのチューニング方法

ランダムサーチ

考えられるパラメータの範囲を決め、ランダムにパラメータを組み合わせて学習させ、最も良いハイパーパラメータを探す方法

グリッドサーチ　
これ良いなっていう（適切な）パラメータを複数用意し、それらの値の組み合わせを全通り総当たり（時間がかかる）し、最も良いハイパーパラメータを探す方法

ハイパーパラメータ人間がやると大変だからこれにやらせる方法

効率的に探したい

↓

ベイズ最適化

形状がわからない関数の最大値/最小値を求める

過去の試行結果から次に行う範囲を確率分布を用いて計算する手法

効率的なチューニング方法

獲得関数

ファインチューニング
学習済みモデルの層の重みを微調整する手法

層ごとの貪欲法

単層の自己符号化器に分割し入力層から繰り返し学習させる

・ノイズ除去
・ニューラルネットの事前学習

・異常検知

　↑

自己符号化器の代表的な応用例

RNN

時間軸に沿って深いネットワーク構造を持つため

↑

勾配消失問題理由

活性化関数に対してニューラルネットワークの層が深すぎる。

↑

勾配消失問題理由

back-propagation through time

誤差が時間をさかのぼって逆伝播して反映すること

DNNの学習の目的は出力関数を最小化すること

勾配降下法にはパラメータの勾配を数値的に求めると

計算量が膨大

学習率

勾配降下法においてパラメータの更新量を決める学習率の決定は重要

損失(ロス)関数を最小にすることが目標

ハイパーパラメータ、勾配に沿って一度にどれくらい下るか

ややこしい

損失関数＝誤差関数＝コスト関数

出力＝モデルの結果

バイアス

傾向

アンサンブル学習

ブースティング

ベースとなる学習器（決定木/線形分類etc）が必要

この学習器をレベルアップ(学習データに変化を加える)していく手法

→勾配ブースティング、AdaBoost, XGBoost, LightGBM

バギング

レベルアップではなくモデルの平均をとって良いモデルを作る手法

バギングは消したりしながらいくつかのモデルを作り、それらの平均をとる

→ランダムフォレスト

⭐︎スタッキング　

モデルを積み上げていく方法

谷での振動

最適化手法(局所的最適解etcの解決手法)

・SGD

・Momentum SGD　

SGDに慣性をもたせたもの

過去の勾配を平均するため0に近くなりスムーズにパラメータが更新

・NAG(Nesterov Accelerated Gradient)

Momentumに比べて一歩先の点で勾配を求めて進んでいく

オーバーシュートが軽減

・RMSProp

NAGに似てる

SGDに比べて勾配の小さい方にもパラメータが更新される

・Adam
Momentum＋RMSProp

Mom(緑)に似てる

画像、自然言語でも使われる

勾配の平均と分散をオンラインで推定し利用する

・AdaGrad

超早い

勾配を二乗した値を蓄積

勾配降下法で自動的に学習率を調整することができる

・Adadelta

AdaGradの発展系

主成分分析（PCA）

特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る

白色化（正規化）

各特徴量を無相関化したうえで標準化する、計算コストが高い

画像系

局所コントラスト正規化（正規化）
減算正規化と除算正規化の処理を行う

画像処理で利用される

グレースケール化

カラー画像を白黒画像に変換して計算量を削減する

平滑化

細かいノイズの影響を除去する

OpenCV

bag-of-words

テキストデータを数値化

TF-IDF

単語の重要度を特徴量

TF 単語の出現頻度

IDF 逆文書頻度

出現率が高い＆重要な単語に大きい値

強化学習の説明として誤りである選択肢を 1 つ選べ.

正解データ付きの訓練データを用意する必要がない
一般的に学習には時間がかかる
状態遷移を考慮することができる

汎用性が高く異なるタスクへの転移が容易である

adversarial example

バッチサイズ

イテレーション（重み更新）に用いるサンプル数

蒸留

過学習を緩和する

95＆96

CNN

畳み込み層＜全結合層
↑

こっちの方がパラメータ数少ない

97＆98

重み共有によって

有用な特徴量を画像の位置によって大きく変化させない

99？

一般社団法人人工知能学会は,9 つの指針

101？

第一次第二次いつ？

102

だれ？

Andrew Ng

Yann LeCun
Facebook 社が招いたディープラーニングの研究者

クラスタリング

バギング
ブースティング

ベイズ線形回帰
ランダムフォレスト
SVM

104

Google社・Facebook社

言語データによるRNNや映像データからの概念や知識理解を目指す

UC Berkeley

実世界（ロボット）対象　知識理解を目指す

DeepMind社

オンライン空間上対象　知識理解を目指す

(デミス・ハサビスにより設立、AlphaGo、ブロック崩し採用、WaveNet＝音声合成＆音声認識）

110

誤差逆伝播学習

112

極小値

ニューラルネットワークの学習の目的関数は多く持つ

117

ヨシュア・ベンジオ(DLの父のひとり)

人間の知識では気づけない共通点→「良い表現」

・複数の説明変数の存在

・時間的空間的一貫性

・スパース性

118

DLのアプローチとして注目

・説明要因の階層的構造

・タスク間の共通要因

・要因の依存の単純性

122

＜教師なし＞

異常検知はSVM(OneClassSVM)のアルゴリズムを使って基にセキュリティシステムなどに使用される

125

ユルゲン・シュミットフーバー（AIの父）＆ゼップ・ホフレイター（ケプラー大学）

google 翻訳に使用＝LSTM　提唱

131参照

126

ディープラーニングの画像認識への応用先

・クラス分類

・物体検出

127

ResNet(残差ネットワーク)誕生

深い階層構造→精度の高い認識や分類が可能→パラメータの数が膨大

128

2014年に考案されたR-CNN

2015に考案されたFaster R-CNN

2016年に考案されたYOLO

（全てのアルゴリCNNの技術が内部で使用されている）

128＆129

物体検出

・対象物がどこにあるかをボックスに切り取り、対象物を推定するタスク

物体セグメンテーション

・対象としている画像のそのものが何かを推定するタスク

131

LSTM

CNNから得られた特徴を入力すると生成することが可能である

125参照

136

End to End Learning

最初の入力と最終の出力までを一括で、という意味合い

137-139

＜1990 年代の音声認識はHMMとNグラム法の両方でできている＞

隠れマルコフモデル（HMM）

・音自体を判別するための音響モデル

Nグラム法 n-gram

・語と語のつながりを判別する言語モデル

↓

＜ディープラーニング・RNNの登場＞

End to End モデルというアプローチから人的に前処理なしで解析が可能

140−143

・（ディープラーニング）ソフトウェアフレームワークを利用して実装するのが一般的である

・役割＝データを用いて学習・予測を実行するのが(ディープラーニング)フレームワーク

ネットワーク二つの記述方法

設定ファイル

→ Caffe やCNTK

・テキストでモデルの定義が設定できる

・簡単に学習開始が出来る

プログラム

・TensorFlow や Chainer

・一度書き方を覚えてしまえば複雑なモデルでも比較的簡単に記述することが出来る

・ソフトウェアに依存してしまうという問題あり

フレームワーク　開発

・Tensorflow Google社 設定ファイル/ネットワーク記述＝Caffe やCNTK

↓(ラッパーとして機能する)

・Keras 　　　Google社　設定ファイル/ネットワーク記述＝Caffe やCNTK

・Chainer 　PreferredNetworks社　プログラム/ネットワーク記述＝TensorFlow？　PyTorch や Chainer

(Define-by-Runという形式を採用)

・PyTorch　Facebook社　

※Chainer2019年12月開発終了→PyTorchに移行

144-151

線形モデル(単回帰モデル)とは説明変数を含む項の線形結合

説明変数を含んだ数式の出力値は被説明変数

一次元のデータの場合：

y = b0 + b1 * x

各項の係数（例えば b0, b1）をパラメータと呼ぶ

被説明変数が連続の値を取り扱う場合　＝　回帰

離散の値を取り扱われる場合　＝　分類

2次元以上の場合：

重回帰モデル

各項の係数パラメータ　＝　偏回帰係数

モデルから出力された値と実際の測定値の誤差　＝　残差

152-154

157

SGD確率的

最適化のパラメータを見つけるアルゴリズム

161-162

165

169

191

196-198

212-215

損失関数

回帰問題＝平均二乗誤差関数

分類問題＝交差エントロピー誤差関数

↓

KL ダイバージェンス

分布を直接学習する際に使用

L1 正則化　ラッソ回帰

重みの絶対値の総和（に強度をかけたもの）

L2 正則化　リッジ回帰

重みの2乗の総和（に強度をかけたもの）

損失関数にパラメータの二乗ノルムを加えられたもの

223

237

2015 年に google＝Deep Dream

画像生成

238

雑音・残響抑圧
音声を認識したい対象とそれ以外の雑音に分離する

自動運転について

自動運転のレベル0〜5までの概要と特徴およびその法規制について

【従来通り：レベル0】ドライバーがすべてを操作
【運転支援：レベル1】システムがステアリング操作、加減速のどちらかをサポート
【運転支援：レベル2 】システムがステアリング操作、加減速のどちらもサポート
【自動運転：レベル3】特定の場所でシステムが全てを操作、緊急時はドライバーが操作
【自動運転：レベル4】特定の場所でシステムが全てを操作

ドローンの法制度について

特にドローンの飛行禁止空域などに関して何問か出題されていた

原則飛行は禁止で、飛行させる場合は国土交通省の手続きを経て許可を受ける必要がある区域

空港周辺
150m以上の上空
人家の集中地域

VGG16

オックスフォード大のチームが開発した

WaveNet

DeepMind開発音声波形を生成するためのNN