『ゼロから作るDeep Learning』読書会@高円寺(4)

『ゼロから作るDeep Learning』読書会@高円寺(4)
https://koenjidl.connpass.com/event/56139/
に参加してきた。

参加者で、気になった発言を列記してみる。

以下、概ね時系列で列挙する
(1)なぜ、線形領域しか扱えない線形分離器を重ね合わせると
  非線形領域を扱えるようになるのか ?
 ⇒自分の不規則発言で、答えのつもりで(2)を発言
(2)行列で線形分離をする決定面(y = ax + b)を変換かけるのだから
  非線形にできるのは不思議ではない。

  (「例はたくさんあるから不思議におもわなくても
   良いんじゃなかな?」という話
   他のジャンルでも変換で複雑な式に変換する例は
   あると思う。

   例えば
    線形ではないが、地動説流の惑星の楕円起動から
    天動説流の時間tを含むtの6次式だったか
    8次式だったか定かでないが
    複雑な方程式に座標変換できたと思う。
    その変換がガリレイ変換だったかローレンツ
    変換だったか覚えてないです。

    天動説が間違っているかについては
    相対論とのからみで下リンクに説明がある
    http://fj.sci.physics.narkive.com/tR5DC096/4-009
    要するに、どの慣性系をえらんでもよい。
    だけど、太陽を中心に計算する座標系を選んだ方が
    「計算が楽だから、みんな当然そうするよね。」
    という話。
    天動説 vs 地動説の話は、相対論のある現代に
    おいては死んだ話題。
   
   細かく見ると、上記変換には
   時間tがパラメータに含まれているので
   ただ線形和をとってる訳ではない
   
   線形和だけでは、非線形には
   ならないと思われます。
   例えば、ABCD...を行列として
   行列の積の結果Eを
   E = ABCD...
   の様に考える
   Eとベクトル(x,y)の積は
   Eの要素がE11,E12,E21,E22で
   あると考えると
   (E11*x + E12*y,E21*x + E22*y)になり
   変換後も、線形であることには、
   変わりがないことになる。

   線形和のみではなく、活性化関数hが含まれるため
   この状況が変わると思われます。
   h関数は、x、yをとるので、h(x,y)と考えても
   良いと思います。
   また、この話の流れとは直接関係ないですが
   重みの行列をWとすると
   hとW(x y)の積でhとWは交換可能でない
   つまり、hW-Wh≠0(hW≠Wh)です。

   話は変わりますが、もっと俯瞰した話として
   ニューラルネットワークには、任意の関数を表現できる話もあります。
   http://yuki-sato.com/wordpress/2014/09/03/performingfunction/

   もっと、正確な議論は下リンク内にある論文など
   見ることになるんですかね?
   http://qiita.com/HirofumiYashima/items/774f8b41489e2622e1db

(3)パーセプトロンニューラルネットワーク
  言っているが、なぜパーセプトロン
  対してニューラルネットワークでなく
  ニューロンを使わないのはなぜ ?

  ⇒回答として結論はでていて
    この本では、ニューロンは、グラフのノードと同じ意味
    で使用しているので、その流儀では、ニューラルネットワーク
    が正しい。
  ⇒発言しなかったが、思ったこと
    ニューロンという言葉は、意味が文脈でかなり
    変わるので、掲題のような説明に使われるのは
    なんとなく嫌な感じがした。
    ⇒いなや理由
    http://d.hatena.ne.jp/krxross/20170517/1495032611

(4)ローカルミニマムに落ちない保証は ?
  ⇒初っ端に思ったこと、上手く説明できないので
   発言しなかったが、端的に言うと
   「あるワケ無い」とフィーリングで思った。
   任意性の高い関数超曲面の最小値をどうやって
   求められるだろうか ?

   話が違いますが、数理最適化問題
   巡回セールス問題を遺伝的アルゴリズム
   探す手法があるが、最適解でないばかりか
   最悪どこまで、最適解とかけ離れているかも
   保証できなかったとおもいます。
   上記の問題よりも、離散値でなく
   連続値であることや、線形でなく
   任意のグラフが書けてしまうことを
   考えると、問題はさらに難しいと
   フィーリングでは思ってしまいます。
   
   (質問者は、数式で論理的に分かりたいのだと
   思うので、質問者にとって上記はただの
   ポエムでしかなく、なんの価値もないですが。)

   ところで、問題が解けると言う時に
   嬉しい順は、次の順のように思う。
   (a)代数的に解ける。
   (b)近似で解け、最適解に限りなく
     近づくことができる。
   (c)近似で解け、最適解から
     かけ離れている率が、高々決まる。
   (d)近似で解け、最適解から
     どれだけ、かけ離れているのか
     推定すらできない。

   アルゴリズムの性能上(d)を選択するしか
   ない問題が、最適化問題には
   多くあると思います。
   それと、ニューラルネットワーク
   ローカルミニマム問題は
   変わらないと思いますがどうでしょうか?
   (所詮近似でしかないですし)






■自分が7shiさんに聞きたいこと。
http://d.hatena.ne.jp/krxross/20170520/1495250231