思考Information Ratio

紫式晦澀每日一篇文章第32天

前言

資訊比的非形式化定義與直覺:

證明的基礎: 資訊比 $$ \text { information ratio }_{t}=\frac{(\text { expected regret in round } t)^{2}}{\text { expected information gain in round } t}, $$
資訊比小: 學習者的後悔夠小, 或者得到資訊夠多.

要馬「決策得好」要馬「學很多」

資訊獲取(Information gain)的實踐法:

資訊理論分析搭非負熵勢能-minimax最優:

資訊理論分析(Information-Theoretic Analysis)
非負熵勢能(negentropy potential)
得到的bounds, 在K-armed bandit與Exp3雷同.
在Tsallis entropy與INF strategy也成立[6]J.-Y. Audibert and S. Bubeck. Minimax policies for adversarial and stochastic bandits. In Proceedings of Conference on Learning Theory (COLT), pages 217–226, 2009.

資訊比與線上隨機鏡面下降:

用OSMD的技術設計TS算法
但這樣bandit與full information的邊界在哪裡?

連結四大問題:資訊理論, 鏡面下降, 貝氏後悔, 對抗學習:

分析「線上隨機鏡面下降」的工具, 可以得到一種版本的「Thompson取樣」, 把「鏡面下降更新(Mirror descent update)」換成「貝氏更新(Bayesian update)」.
資訊理論分析<->線上隨機鏡面下降(OSMD)更新分析
OSMD <-> 貝氏後悔分析
貝氏後悔分析–>對抗框架

關鍵函數:

最小化「獲得每單位資訊的成本」:

K-armed對抗強調是minimax最優:

今天大概看一看相關的文獻, 之後在陸續累積insights.天天向上, 共勉之！

2022.01.29. 紫蕊於西拉法葉, 印第安納, 美國.