一日たって - Through the Looking Glass: And What I Found There

１人で矛盾を抱えたりするのはあんまり得策ではなく、いくにんかに話を聞いてもらうことができた。その二人には本当に感謝してるし、とくにゆきやの方には大変に迷惑をかけてしまった。

今日は国際関係論の発表でディベートのトピックは「遺伝子組み換え作物の流通はストップさせるべきか」という論点だった。自分としてはSISで同じトピックを考えてきたし、資料もたくさんあったから勝つ！！と思っていた。

ところが！！！
なんと相手は以前やられた吉井さん・・・。また吉井さんとやるのかぁと落胆。彼女のスピーチは天晴れで、さすがディベート部と言える内容で僕らを圧倒。僕らもがんばったけど。
結局吉井さん１人に持ってかれたな、このディベート・・・というカンジで惨敗。ディベートのテクニックって素晴らしいと思う。
四限からはSISの発表当番（結局僕はしゃべらなかったけど）だったので、いろいろと緊張しながら時間を過ごしてた。発表がふたつもあるといろいろ考えることもあるし、それに昨日のこともあってとてもいろいろな作業をこなすのが大変だったし、余裕もなかった。

結局そのことが響いて、アルバイトが今日に延期になったことを忘れていてゆきやとまゆこの3人でサランバンに行く予定をぶちこわしてしまった。僕が金曜日がいいといったから、「土曜がいい」といった山田さんの予定を蹴って今日にしてくれたのに。それに答えられなかったのは本当に自分のふがいなさを表していて、まったくもってお粗末な自分が悲しくなった。

ぜったいにまたマユコとユキヤと恵里にはサランバンにもいちど行こうって約束をしよう。そんで、僕がこの約束を蹴って行ったアルバイト代をこの費用にあてるのだ、と決心した。

まさやすさんは「ネタ帳」をつけることが大切。といっていた。
僕もネタではないけど、こうしてなにか記録を残すことをしている。いつかこれが自分を見つめ直したり、役に立つことがあればよいなと思う。なによりもこうして自分が何をしたのかを書いておくことは自分のためになる。

いつも「卒論が忙しい」と言ってきたけれど、そうした不安というものは目標が見えない不安であり、じゃあ現在どうなっているのか？ということをしっかり考えていかなくてはならない。

ボルツマン分布を利用したソフトマックス手法の行動選択


Ｑ学習には行動選択手法を使って行動を選択する必要があるが、ボルツマン分布を利用したソフトマックス手法を使おうと思った。
行動選択手法にはいくつかあり、εグリーディー手法やルーレット選択がある。

☆	ボルツマン分布を利用したソフトマックス手法とは

ルールの価値の比によって確率的に行動を選択する方法をソフトマックス手法と呼ぶ。
これはQ(s,a)の価値を持つルールが確立p(s|a)で選択される。
この意味は「状況ｓにおいて行動aを選択する確率」のことである。

特徴

価値の低いルールはあまり選択されず、逆に価値の高いルールは頻繁に選択されるように
各ルールをランク付けすることである。
問題点としては、ボルツマン分布を用いると、εグリーディー法のεと同じ働きをする
温度（ｔ）パラメータを設定しなければならない。このパラメータは行動選択のランダム度合いを調整するものであり、
その値が大きいと全行動がほぼ同じ確率で選択され、
小さくなるとランク付けの高い行動ばかりを選ぶようになる。

よって、学習の初期段階ではTを大きくとりだんだん温度を下げていくことで学習の効率を
あげることが可能になるというディスカッションを得た。

この行動選択式がルーレット選択と大きく違うところは「温度で割ったQ値」を次数にした自然対数の底Eを分子と分母にもつことだ。

これ以外にもQ学習の学習に必要なQ値の更新式や報酬を過去にさかのぼってあたえていく関数ができた。いくつかの技術的な問題もあるが、これからは数字と行動を対応させる表を作ったりしなくてはならない。まだまだ頑張っていこう。