内藤 裕二/ 2018年 11月 30日/ 試験・セミナー

TL;DR

約一週間遅れですが、11/22(木) インタークロス・クリエイティブ・センターにて開催された、~Sapporo AI Lab AI人材育成プログラム~「AIエンジニア育成講座(初心者向け)」2セット目の1回目に参加しました。

初回の今回は座学が中心で、「AIの歴史と概要」として、AIの定義や最新の研究結果についてスライドでの発表を聞いた後、主催者側で用意していただいたアカウントを使用してAWSやWatsonのデモを動かしてみる、という内容でした。

セミナー内容

AIの歴史と概要

内容は割愛。
イベント等でAI関係の発表を聞かれていれば、だいたい同じような内容は聞けると思います。

AWSデモ

AWSのデモとして、下記の動作を確認しました。
すべて内容は画像認識です。

  • オブジェクトとシーンの認識
  • 顔の分析
  • 有名人の認識

オブジェクトとシーンの認識

画像をアップロードすると、画像中に写っていると思われるものが列挙されます。
サンプルだと、スケートボードや車、高層ビル等がきちんと認識されました。

試しに、以前電子レゴブロックを自作してみたで使用した、息子の作ったレゴブロックの画像を分析してみた結果がこちら。

オブジェクトとシーンの分析・デモ

きちんと「Toy」が検出されているのと、写りこんでしまった子供の手から、「Human」が検出されているのにびっくりしました。

顔の分析

画像をアップロードすると、画像中に写っていると思われる顔を分析し、その結果が表示されます。
複数人が写っていても、それぞれについて分析してくれます。

試しに、弊社ホームページの社長の写真を分析してみた結果がこちら。

顔の分析・デモ

東洋人、かつ、モノクロの画像なのですが、それでもきちんと年齢や表情を分析してくれています。

有名人の認識

画像をアップロードすると、画像中に写っている人物が有名人の場合は、名前を表示してくれます。
サンプルではJeff Bezosを認識していました。

手元で試してみたところ、イチロー, トランプ大統領、安倍首相は認識しました。
嵐の二宮和也, ガンジーは認識せず。
選んだ画像によって、認識率に差がありそうな感じでした。

Watsonデモ

Watsonのデモとして、下記の動作を確認しました。

  • 音声のテキスト化

音声のテキスト化

流し込んだ音声をリアルタイムでテキストに変換します。
複数人いる場合は、きちんと登場人物ごとに切り分けてくれます。
また、あらかじめキーワードを指定しておくことで、
- キーワードを発したか
- 発した場合は、発したタイミング(会話開始から何秒~何秒までの間)
を表示してくれます。

デモの内容もさることながら、リアルタイムでテキスト変換されていくのが見ていて楽しいです。

マイクで自分の声を入力しましたが、ちょっと声色を変えたくらいでは、同一人物として扱ってくれました。
ただ、隣で話してた人の声が同一人物になったりと、声質によって精度は変わりそうです。

雑感

ハンズオンに入る前の基礎知識講座でした。
趣味レベルでChainnerは触っていましたが、体系的に学んではいなかったので、きちんと学ぶきっかけにしようと思います。
セミナー自体は、おそらく来年の春頃にまた開催されると思いますので、興味のある方は参加されてみてはいかがでしょうか。

参考資料

SlideShareを探すと、似たような内容のスライドが見つかったのでリンクしておきます。