情報数理学特論 I 第07回

第5~8回は
 動画「What is Deep Learning? 」
の内容を学びます。

第8回の終わりに課題を出します。
指示に従い提出して下さい。

必要に応じて
 「字幕」を利用したり、
 「再生速度」を調整して、
内容を理解していきましょう。

以下、動画を理解する為のヒントを記載します。

第7回は
動画の
 5:13~8:00
の理解を目指します。

■5:13~5:36
 というわけで今回は画像認識への深層学習の応用です。
 人間が無意識にこなしている「顔認識(顔の識別)」は計算機上でどのように実現されるのでしょうか。
 もしもあなたが、顔認識のプログラミングをしてくれ、と頼まれたらどうするか思い浮かべながら動画を視聴しましょう。

■5:37~6:00
 practical は 実用的という意味です。情報数理学では頻繁に用いられる表現です。もう、覚えましたか?

 application は 応用 という意味です。そのレベルは様々です。「店頭に並ぶ商品の開発に応用できる」とか「ブラックホールの位置を求める計算に応用できる」とか。余談ですが、符号理論は有限群の分類に応用されています。

 猫の画像が沢山出てきました。深層学習を用いれば、「画像に猫が居るのか居ないのか」、「猫が居るならそれはイリオモテヤマネコか」などの識別ができます。

 今回の動画の最初の方(つまり講義5回目相当)に、深層学習の仕組みが開設されました。ランダムな2部グラフを積み重ねた構造の一方を入力、もう一方を出力としたものです。
 深層学習では難しいプログラミングなどは必要ありません。グラフに対して、たくさんの入力をするだけです。例えばこのタイミングの例なら、「このフォルダの画像には猫の居るよー」とか「このフォルダの画像には猫が居ないよー」とか伝えながら入力するだけです。するとコンピュータが、ベクトルに行列をかける計算、ベクトルの平行移動、数値が0未満か否かの判定、程度の計算を繰り返してくれて、そのうちに「画像に猫が居るか居ないのか」を判定するソフトウェアが出来上がります。つまり、人間の仕事は、画像収集を収集して猫が居るか居ないのか仕分ける作業をする(human-made labelを作る)ことです。

 pixel は 画素の単位です。スマホで撮影した写真も、ゲームの画像も、テレビの映像も、細かい四角を並べて構成されています。ハイビジョン(HD, High Definition)なら、横に1280、縦に720の四角形が並んで画像を構成しています。四角形が小さくて数が多いために、人間の脳が誤り訂正等の処理を行い、奇麗な画像だと復号されます。

 feedback は フィードバック とそのまま訳されます。相手からの返事だと思えば良いでしょう。例えば、講義の後に学生が「萩原の字は小さすぎて読めない」とアドバイスをしてくれる(萩原に対する学生からのフィードバック)など。そしたら今度は、萩原が講義の字を大きくする(学生に対する萩原からのフィードバック)など。

 

■6:01~6:30

 数学・情報数理学科に進学して良かったと感じることの一つが「ユニーク (unique)の意味を正しく使えるようになる」だと思いますが、みなさんどうですか。世間一般ではユーモアと混同している人が多い印象。

 activation を訳すときにはちょっと注意が必要です。というのも、日常用語としての「活性化」だけでなく、「関数の種類」としても用いられます。例えば「 f(x) := max{x, 0}」という関数は、深層学習の研究で「活性化関数 activation function」の例として使われます。

■6:31~7:00

 この辺りから医学用語がちらほら出てきます。深層学習は医療にも応用されていることがわかります。
 「線形代数(行列計算、ベクトル計算)」、「非線形関数(例 max{x, 0})」、「コンピュータに入力するデータ収集」。これら3つの要素で「ゲーム」「翻訳」「画像処理」「医療」などを発展できるという話。

 ここでの miss は 見逃す という意味です。人間が見逃してしまう病気も、深層学習なら発見できるという話。 

■7:01~8:00

 人間が手にした深層学習という道具。ここから道具の使い方が、想定外の方向へ広がっていきます。(誰の想定外?萩原の想定外)

 深層学習を使って「外国語で書かれた文章を入力して意味を出力させる」というものから「新たな文学を生み出す」という応用へ広がります。

 深層学習を使って「(例えば人の顔があるかどうか)画像を認識する」というものから「架空の人の顔画像を生み出す」という応用へ広がります。つまり new images of human faces that don’t exist です。

 すでに今日現在、人間の目には「本当の人物の顔画像」か「深層学習が造り出した架空の顔画像」か、識別できません。