2016年3月26日土曜日

全脳アーキテクチャ若手の会 第13回勉強会

面白い動画を見つけたので張っておきます。



メモ:
4:45~ニューラルネットワーク
局所表現 : 入力層…1 or 0で表現 
例 犬…{1,0,0,0…},猫…{0,1,0,0…}
分散表現 : 隠れ層…それぞれの特徴量の実数ベクトルで表現


13:30~自然言語処理(NPL)…人間が使う自然言語をコンピュータで処理する。
易:スペルチェック、キーワード検索、類似語検知
中:形態素解析、構文解析
難:機械翻訳、センチメント分類、質問応答システム

14:35~古典的な機械翻訳=フレーズベース翻訳

16:13~センチメント分析=テキストから感情を判断
(ポジティブ1.0~-1.0でネガティブで評価)

17:35~質問応答システム (QAシステム)
closed-domain : 定められた分野の質問に応答…IMBのWATSONはこっち
open-domain : ほぼ何の質問でも応答

18:55~自然言語処理の最初のステップは言葉のベクトル化

19:45~局所表現では意味が分からない→意味をとらえるベクトルがほしい

20:21~分布仮設 
似ている文脈を持つ言葉は似ている意味を持つ
→count-based methods:ある文脈に出現する回数をカウントする方法
 統計的手法(SVD,LSA,HAL)

→predictive methods
 ニューラルネットワークを使って文脈↔単語を予測する方法
 (NPLM、word2vec)

22:33~文脈の定義
文脈窓:2k+1の単語列をとる。

24:00~統計的手法
単語文脈行列(co-occurance matrix)を作成する
1.文脈窓を文脈として用いる。
2.出現する単語が行および列のラベルになる行列を作成。
3.同じ文脈に出現した単語の組み合わせの数をかぞれえる。
欠点:語彙数が多いと巨大なベクトルになる。

26:43~特異値分解(SVD)の説明
pythonに関数あり。

28:37~SVDの実装例

29:58~さらに本格的な例
Brown corpus:語数の大きなデータ?
TSNE:多次元データを可視化するかルゴリズム
cos類似度 33:27~

37:14~言語モデル…単語列の文法と意味が正しいほど高い確率を与えるモデル
応用例:スペルチェック、予測変換、音声認識
n-gram言語モデル(41:00)
欠点はnを多くすると、組み合わせが指数的に爆発し、確率がさがる
類似のものを同じ確率とみなすことができれば正しい確率が計算できる
→NNの分散表現を利用。

36:00~ニューラル確率言語モデル(NPNL)
単語列の次に出現する単語の確立を計算する。

51:40~word2vec
CBOW
skip-gram

1:12:39~eoncoder-decoderモデル

1:16:10~転移学習 (違うタスクで学習したNNの中間層を別のタスクに使いまわす。)

1:17:31~zero-shot-learning
例:モモンガの画像を見たことないが、単語空間から、画像がモモンガであることをあてる。

1:25:13~DeViSE
画像認識で単語ベクトルを利用することにより、モデルは意味的情報も考慮できるようになる。

1:29:08~Neural storyteller
1:37:19~概念空間 画像や言葉などのをベクトル化した空間。

理解するのに必要な言葉
CNN:Convolutional Neural Networks:全結合していない順伝播型ニューラルネットワーク
RNN:Recurrent Neural Network:有向閉路を持つニューラルネットワークの事。それ以前の入力によって変化する状態を保持する(オートマトン)

0 件のコメント:

コメントを投稿