『ゼロから作るDeep Learning』読書会＠高円寺(4)

『ゼロから作るDeep Learning』読書会＠高円寺(4)
https://koenjidl.connpass.com/event/56139/
に参加してきた。

参加者で、気になった発言を列記してみる。

以下、概ね時系列で列挙する
(1)なぜ、線形領域しか扱えない線形分離器を重ね合わせると
　　非線形領域を扱えるようになるのか ?
　⇒自分の不規則発言で、答えのつもりで(2)を発言
(2)行列で線形分離をする決定面(y = ax + b)を変換かけるのだから
　　非線形にできるのは不思議ではない。

　　(「例はたくさんあるから不思議におもわなくても
　　　良いんじゃなかな?」という話
　　　他のジャンルでも変換で複雑な式に変換する例は
　　　あると思う。

　　　例えば
　　　　線形ではないが、地動説流の惑星の楕円起動から
　　　　天動説流の時間tを含むtの6次式だったか
　　　　8次式だったか定かでないが
　　　　複雑な方程式に座標変換できたと思う。
　　　　その変換がガリレイ変換だったかローレンツ
　　　　変換だったか覚えてないです。

　　　　天動説が間違っているかについては
　　　　相対論とのからみで下リンクに説明がある
　　　　http://fj.sci.physics.narkive.com/tR5DC096/4-009
　　　　要するに、どの慣性系をえらんでもよい。
　　　　だけど、太陽を中心に計算する座標系を選んだ方が
　　　　「計算が楽だから、みんな当然そうするよね。」
　　　　という話。
　　　　天動説 vs 地動説の話は、相対論のある現代に
　　　　おいては死んだ話題。
　　　
　　　細かく見ると、上記変換には
　　　時間tがパラメータに含まれているので
　　　ただ線形和をとってる訳ではない
　　　
　　　線形和だけでは、非線形には
　　　ならないと思われます。
　　　例えば、ABCD...を行列として
　　　行列の積の結果Eを
　　　E = ABCD...
　　　の様に考える
　　　Eとベクトル(x,y)の積は
　　　Eの要素がE11,E12,E21,E22で
　　　あると考えると
　　　(E11*x + E12*y,E21*x + E22*y)になり
　　　変換後も、線形であることには、
　　　変わりがないことになる。

　　　線形和のみではなく、活性化関数hが含まれるため
　　　この状況が変わると思われます。
　　　h関数は、x、yをとるので、h(x,y)と考えても
　　　良いと思います。
　　　また、この話の流れとは直接関係ないですが
　　　重みの行列をWとすると
　　　hとW(x y)の積でhとWは交換可能でない
　　　つまり、hW-Wh≠0(hW≠Wh)です。

　　　話は変わりますが、もっと俯瞰した話として
　　　ニューラルネットワークには、任意の関数を表現できる話もあります。
　　　http://yuki-sato.com/wordpress/2014/09/03/performingfunction/

　　　もっと、正確な議論は下リンク内にある論文など
　　　見ることになるんですかね?
　　　http://qiita.com/HirofumiYashima/items/774f8b41489e2622e1db

(3)パーセプトロンとニューラルネットワークと
　　言っているが、なぜパーセプトロンに
　　対してニューラルネットワークでなく
　　ニューロンを使わないのはなぜ ?

　　⇒回答として結論はでていて
　　　　この本では、ニューロンは、グラフのノードと同じ意味
　　　　で使用しているので、その流儀では、ニューラルネットワーク
　　　　が正しい。
　　⇒発言しなかったが、思ったこと
　　　　ニューロンという言葉は、意味が文脈でかなり
　　　　変わるので、掲題のような説明に使われるのは
　　　　なんとなく嫌な感じがした。
　　　　⇒いなや理由
　　　　http://d.hatena.ne.jp/krxross/20170517/1495032611

(4)ローカルミニマムに落ちない保証は ?
　　⇒初っ端に思ったこと、上手く説明できないので
　　　発言しなかったが、端的に言うと
　　　「あるワケ無い」とフィーリングで思った。
　　　任意性の高い関数超曲面の最小値をどうやって
　　　求められるだろうか ?

　　　話が違いますが、数理最適化問題で
　　　巡回セールス問題を遺伝的アルゴリズムで
　　　探す手法があるが、最適解でないばかりか
　　　最悪どこまで、最適解とかけ離れているかも
　　　保証できなかったとおもいます。
　　　上記の問題よりも、離散値でなく
　　　連続値であることや、線形でなく
　　　任意のグラフが書けてしまうことを
　　　考えると、問題はさらに難しいと
　　　フィーリングでは思ってしまいます。
　　　
　　　(質問者は、数式で論理的に分かりたいのだと
　　　思うので、質問者にとって上記はただの
　　　ポエムでしかなく、なんの価値もないですが。)

　　　ところで、問題が解けると言う時に
　　　嬉しい順は、次の順のように思う。
　　　(a)代数的に解ける。
　　　(b)近似で解け、最適解に限りなく
　　　　　近づくことができる。
　　　(c)近似で解け、最適解から
　　　　　かけ離れている率が、高々決まる。
　　　(d)近似で解け、最適解から
　　　　　どれだけ、かけ離れているのか
　　　　　推定すらできない。

　　　アルゴリズムの性能上(d)を選択するしか
　　　ない問題が、最適化問題には
　　　多くあると思います。
　　　それと、ニューラルネットワークの
　　　ローカルミニマム問題は
　　　変わらないと思いますがどうでしょうか?
　　　(所詮近似でしかないですし)

■自分が7shiさんに聞きたいこと。
http://d.hatena.ne.jp/krxross/20170520/1495250231