TL;DR
約一週間遅れですが、11/22(木) インタークロス・クリエイティブ・センターにて開催された、~Sapporo AI Lab AI人材育成プログラム~「AIエンジニア育成講座(初心者向け)」2セット目の1回目に参加しました。
初回の今回は座学が中心で、「AIの歴史と概要」として、AIの定義や最新の研究結果についてスライドでの発表を聞いた後、主催者側で用意していただいたアカウントを使用してAWSやWatsonのデモを動かしてみる、という内容でした。
セミナー内容
AIの歴史と概要
内容は割愛。
イベント等でAI関係の発表を聞かれていれば、だいたい同じような内容は聞けると思います。
AWSデモ
AWSのデモとして、下記の動作を確認しました。
すべて内容は画像認識です。
- オブジェクトとシーンの認識
- 顔の分析
- 有名人の認識
オブジェクトとシーンの認識
画像をアップロードすると、画像中に写っていると思われるものが列挙されます。
サンプルだと、スケートボードや車、高層ビル等がきちんと認識されました。
試しに、以前電子レゴブロックを自作してみたで使用した、息子の作ったレゴブロックの画像を分析してみた結果がこちら。
きちんと「Toy」が検出されているのと、写りこんでしまった子供の手から、「Human」が検出されているのにびっくりしました。
顔の分析
画像をアップロードすると、画像中に写っていると思われる顔を分析し、その結果が表示されます。
複数人が写っていても、それぞれについて分析してくれます。
試しに、弊社ホームページの社長の写真を分析してみた結果がこちら。
東洋人、かつ、モノクロの画像なのですが、それでもきちんと年齢や表情を分析してくれています。
有名人の認識
画像をアップロードすると、画像中に写っている人物が有名人の場合は、名前を表示してくれます。
サンプルではJeff Bezosを認識していました。
手元で試してみたところ、イチロー, トランプ大統領、安倍首相は認識しました。
嵐の二宮和也, ガンジーは認識せず。
選んだ画像によって、認識率に差がありそうな感じでした。
Watsonデモ
Watsonのデモとして、下記の動作を確認しました。
- 音声のテキスト化
音声のテキスト化
流し込んだ音声をリアルタイムでテキストに変換します。
複数人いる場合は、きちんと登場人物ごとに切り分けてくれます。
また、あらかじめキーワードを指定しておくことで、
- キーワードを発したか
- 発した場合は、発したタイミング(会話開始から何秒~何秒までの間)
を表示してくれます。
デモの内容もさることながら、リアルタイムでテキスト変換されていくのが見ていて楽しいです。
マイクで自分の声を入力しましたが、ちょっと声色を変えたくらいでは、同一人物として扱ってくれました。
ただ、隣で話してた人の声が同一人物になったりと、声質によって精度は変わりそうです。
雑感
ハンズオンに入る前の基礎知識講座でした。
趣味レベルでChainnerは触っていましたが、体系的に学んではいなかったので、きちんと学ぶきっかけにしようと思います。
セミナー自体は、おそらく来年の春頃にまた開催されると思いますので、興味のある方は参加されてみてはいかがでしょうか。
参考資料
SlideShareを探すと、似たような内容のスライドが見つかったのでリンクしておきます。