『ゼロから作るDeep Learning』読書会@高円寺(4)
『ゼロから作るDeep Learning』読書会@高円寺(4)
https://koenjidl.connpass.com/event/56139/
に参加してきた。
参加者で、気になった発言を列記してみる。
以下、概ね時系列で列挙する
(1)なぜ、線形領域しか扱えない線形分離器を重ね合わせると
非線形領域を扱えるようになるのか ?
⇒自分の不規則発言で、答えのつもりで(2)を発言
(2)行列で線形分離をする決定面(y = ax + b)を変換かけるのだから
非線形にできるのは不思議ではない。
(「例はたくさんあるから不思議におもわなくても
良いんじゃなかな?」という話
他のジャンルでも変換で複雑な式に変換する例は
あると思う。
例えば
線形ではないが、地動説流の惑星の楕円起動から
天動説流の時間tを含むtの6次式だったか
8次式だったか定かでないが
複雑な方程式に座標変換できたと思う。
その変換がガリレイ変換だったかローレンツ
変換だったか覚えてないです。
天動説が間違っているかについては
相対論とのからみで下リンクに説明がある
http://fj.sci.physics.narkive.com/tR5DC096/4-009
要するに、どの慣性系をえらんでもよい。
だけど、太陽を中心に計算する座標系を選んだ方が
「計算が楽だから、みんな当然そうするよね。」
という話。
天動説 vs 地動説の話は、相対論のある現代に
おいては死んだ話題。
細かく見ると、上記変換には
時間tがパラメータに含まれているので
ただ線形和をとってる訳ではない
線形和だけでは、非線形には
ならないと思われます。
例えば、ABCD...を行列として
行列の積の結果Eを
E = ABCD...
の様に考える
Eとベクトル(x,y)の積は
Eの要素がE11,E12,E21,E22で
あると考えると
(E11*x + E12*y,E21*x + E22*y)になり
変換後も、線形であることには、
変わりがないことになる。
線形和のみではなく、活性化関数hが含まれるため
この状況が変わると思われます。
h関数は、x、yをとるので、h(x,y)と考えても
良いと思います。
また、この話の流れとは直接関係ないですが
重みの行列をWとすると
hとW(x y)の積でhとWは交換可能でない
つまり、hW-Wh≠0(hW≠Wh)です。
話は変わりますが、もっと俯瞰した話として
ニューラルネットワークには、任意の関数を表現できる話もあります。
http://yuki-sato.com/wordpress/2014/09/03/performingfunction/
もっと、正確な議論は下リンク内にある論文など
見ることになるんですかね?
http://qiita.com/HirofumiYashima/items/774f8b41489e2622e1db
(3)パーセプトロンとニューラルネットワークと
言っているが、なぜパーセプトロンに
対してニューラルネットワークでなく
ニューロンを使わないのはなぜ ?
⇒回答として結論はでていて
この本では、ニューロンは、グラフのノードと同じ意味
で使用しているので、その流儀では、ニューラルネットワーク
が正しい。
⇒発言しなかったが、思ったこと
ニューロンという言葉は、意味が文脈でかなり
変わるので、掲題のような説明に使われるのは
なんとなく嫌な感じがした。
⇒いなや理由
http://d.hatena.ne.jp/krxross/20170517/1495032611
(4)ローカルミニマムに落ちない保証は ?
⇒初っ端に思ったこと、上手く説明できないので
発言しなかったが、端的に言うと
「あるワケ無い」とフィーリングで思った。
任意性の高い関数超曲面の最小値をどうやって
求められるだろうか ?
話が違いますが、数理最適化問題で
巡回セールス問題を遺伝的アルゴリズムで
探す手法があるが、最適解でないばかりか
最悪どこまで、最適解とかけ離れているかも
保証できなかったとおもいます。
上記の問題よりも、離散値でなく
連続値であることや、線形でなく
任意のグラフが書けてしまうことを
考えると、問題はさらに難しいと
フィーリングでは思ってしまいます。
(質問者は、数式で論理的に分かりたいのだと
思うので、質問者にとって上記はただの
ポエムでしかなく、なんの価値もないですが。)
ところで、問題が解けると言う時に
嬉しい順は、次の順のように思う。
(a)代数的に解ける。
(b)近似で解け、最適解に限りなく
近づくことができる。
(c)近似で解け、最適解から
かけ離れている率が、高々決まる。
(d)近似で解け、最適解から
どれだけ、かけ離れているのか
推定すらできない。
アルゴリズムの性能上(d)を選択するしか
ない問題が、最適化問題には
多くあると思います。
それと、ニューラルネットワークの
ローカルミニマム問題は
変わらないと思いますがどうでしょうか?
(所詮近似でしかないですし)
■自分が7shiさんに聞きたいこと。
http://d.hatena.ne.jp/krxross/20170520/1495250231