2017-05-17

『ゼロから作るDeep Learning』読書会＠高円寺(4)
https://koenjidl.connpass.com/event/56139/
に参加してきた。

参加者で、気になった発言を列記してみる。

以下、概ね時系列で列挙する
(1)なぜ、線形領域しか扱えない線形分離器を重ね合わせると
　　非線形領域を扱えるようになるのか ?
　⇒自分の不規則発言で、答えのつもりで(2)を発言
(2)行列で線形分離をする決定面(y = ax + b)を変換かけるのだから
　　非線形にできるのは不思議ではない。

　　(「例はたくさんあるから不思議におもわなくても
　　　良いんじゃなかな?」という話
　　　他のジャンルでも変換で複雑な式に変換する例は
　　　あると思う。

　　　例えば
　　　　線形ではないが、地動説流の惑星の楕円起動から
　　　　天動説流の時間tを含むtの6次式だったか
　　　　8次式だったか定かでないが
　　　　複雑な方程式に座標変換できたと思う。
　　　　その変換がガリレイ変換だったかローレンツ
　　　　変換だったか覚えてないです。

　　　　天動説が間違っているかについては
　　　　相対論とのからみで下リンクに説明がある
　　　　http://fj.sci.physics.narkive.com/tR5DC096/4-009
　　　　要するに、どの慣性系をえらんでもよい。
　　　　だけど、太陽を中心に計算する座標系を選んだ方が
　　　　「計算が楽だから、みんな当然そうするよね。」
　　　　という話。
　　　　天動説 vs 地動説の話は、相対論のある現代に
　　　　おいては死んだ話題。
　　　
　　　細かく見ると、上記変換には
　　　時間tがパラメータに含まれているので
　　　ただ線形和をとってる訳ではない
　　　
　　　線形和だけでは、非線形には
　　　ならないと思われます。
　　　例えば、ABCD...を行列として
　　　行列の積の結果Eを
　　　E = ABCD...
　　　の様に考える
　　　Eとベクトル(x,y)の積は
　　　Eの要素がE11,E12,E21,E22で
　　　あると考えると
　　　(E11*x + E12*y,E21*x + E22*y)になり
　　　変換後も、線形であることには、
　　　変わりがないことになる。

　　　線形和のみではなく、活性化関数hが含まれるため
　　　この状況が変わると思われます。
　　　h関数は、x、yをとるので、h(x,y)と考えても
　　　良いと思います。
　　　また、この話の流れとは直接関係ないですが
　　　重みの行列をWとすると
　　　hとW(x y)の積でhとWは交換可能でない
　　　つまり、hW-Wh≠0(hW≠Wh)です。

　　　話は変わりますが、もっと俯瞰した話として
　　　ニューラルネットワークには、任意の関数を表現できる話もあります。
　　　http://yuki-sato.com/wordpress/2014/09/03/performingfunction/

　　　もっと、正確な議論は下リンク内にある論文など
　　　見ることになるんですかね?
　　　http://qiita.com/HirofumiYashima/items/774f8b41489e2622e1db

(3)パーセプトロンとニューラルネットワークと
　　言っているが、なぜパーセプトロンに
　　対してニューラルネットワークでなく
　　ニューロンを使わないのはなぜ ?

　　⇒回答として結論はでていて
　　　　この本では、ニューロンは、グラフのノードと同じ意味
　　　　で使用しているので、その流儀では、ニューラルネットワーク
　　　　が正しい。
　　⇒発言しなかったが、思ったこと
　　　　ニューロンという言葉は、意味が文脈でかなり
　　　　変わるので、掲題のような説明に使われるのは
　　　　なんとなく嫌な感じがした。
　　　　⇒いなや理由
　　　　http://d.hatena.ne.jp/krxross/20170517/1495032611

(4)ローカルミニマムに落ちない保証は ?
　　⇒初っ端に思ったこと、上手く説明できないので
　　　発言しなかったが、端的に言うと
　　　「あるワケ無い」とフィーリングで思った。
　　　任意性の高い関数超曲面の最小値をどうやって
　　　求められるだろうか ?

　　　話が違いますが、数理最適化問題で
　　　巡回セールス問題を遺伝的アルゴリズムで
　　　探す手法があるが、最適解でないばかりか
　　　最悪どこまで、最適解とかけ離れているかも
　　　保証できなかったとおもいます。
　　　上記の問題よりも、離散値でなく
　　　連続値であることや、線形でなく
　　　任意のグラフが書けてしまうことを
　　　考えると、問題はさらに難しいと
　　　フィーリングでは思ってしまいます。
　　　
　　　(質問者は、数式で論理的に分かりたいのだと
　　　思うので、質問者にとって上記はただの
　　　ポエムでしかなく、なんの価値もないですが。)

　　　ところで、問題が解けると言う時に
　　　嬉しい順は、次の順のように思う。
　　　(a)代数的に解ける。
　　　(b)近似で解け、最適解に限りなく
　　　　　近づくことができる。
　　　(c)近似で解け、最適解から
　　　　　かけ離れている率が、高々決まる。
　　　(d)近似で解け、最適解から
　　　　　どれだけ、かけ離れているのか
　　　　　推定すらできない。

　　　アルゴリズムの性能上(d)を選択するしか
　　　ない問題が、最適化問題には
　　　多くあると思います。
　　　それと、ニューラルネットワークの
　　　ローカルミニマム問題は
　　　変わらないと思いますがどうでしょうか?
　　　(所詮近似でしかないですし)

■自分が7shiさんに聞きたいこと。
http://d.hatena.ne.jp/krxross/20170520/1495250231

⇒発言しなかったが、思ったこと
ニューロンというと、言葉の意味が文脈でかなり
変わるので、掲題のような説明に使われるのは
なんとなく嫌な感じがした。

神経学者や、認知科学者のような
実用的観点ではなく、人間の現実的モデルに関心を
持っている層は、ニューラルネットワークと(脳細胞という
意味での)ニューロンとは、マッタク違うというのが
共通認識(常識的)になっていると、何かで見たことがあります。
ニューラルネットワークでは、どうも人間の神経系のモデル
としては、役にたたないとのこと。
昔は、同じと思って研究していたことは確かなようですが。

直感的に、人の思考と機会学習では動きが違うし
機械学習は、学習効率がかなり悪いと思います。
機械翻訳などについて言えば、最低100万コーパス位の
教師データが無いと、まともな結果が得られないとありますが
中学・高校の英語で習うテキストで100万コーパスは無いです。
学生用の英語辞書でさえ、100万コーパス無いのではないでしょうか?
これで、一昔前の学生は、受験英語でラッセルなどの難解な文章
を読まされ、テストに回答させられたんです。
人間の方が、相当凄くないですか?

また、囲碁の世界チャンピオンに勝った話ありますが
(裏付けのある確かな情報ではないですが
たぶん電気代だけで)2億円(ドルだったかな?)を溶かして
半年とか1年とかをかけてgoogleの火力のすごさで
やっと到達したと聞きました。

ニューロンとニューラルネットワークは別ものという話は
直感的に十分納得できる話だと思います。
実用的な人工知能を作りたいという機械学習系の話位でしか
ニューラルネットワークが登場しないので
文脈依存にならなく、一意に意味がとれるので
ニューロンという言葉を重要な説明の箇所に
使ってほしくないと個人的に思いました。

krxrossの雑記帳

『ゼロから作るDeep Learning』読書会＠高円寺(4)

『ゼロから作るDeep Learning』読書会＠高円寺(4)その2