多臂老虎機 是一個有多個拉桿的賭博機,每一個拉桿的中獎機率是不一樣的,問題是如何在有限次數內,選擇拉不同的拉桿,獲得最多的收益。假設這個 老虎機 有3個拉桿,最笨的方法就是每個拉桿都試幾次,找到中獎概率最大的那個拉桿,然後把之後有限的遊戲機會都用在這個拉桿上。
多臂老虎機 介紹
多臂老虎機是一種賭場常見的機器,玩家將硬幣投入後拉下拉桿,接著會隨機出現不同圖案,如果停止時出現符合相同或特定相同圖案連線,則可以根據賠率得到特定的報酬 (reward) 。再簡化一點, 多臂老虎機 的運作方式其實就是「玩家拉下拉桿,將會得到一個具有隨機性的報酬」。
運用賭徒的智慧操作多臂老虎機
1.多臂老虎機 探索-突破困境
每個 多臂老虎機 拉桿試1000次顯然比試10次所獲得的中獎概率更加準確。比如你試了10次,其中那個本來中獎概率不高的拉桿,有可能因為你運氣好,會給你一個高概率中獎的假象。
2. 賺錢-貪婪方法
具體操作就是,每次玩 多臂老虎 機的時候就抽一個0到1的隨機數,如果這個數大於ε,則玩你認為中獎概率最大的那個拉桿(預估中獎概率)。如果小於ε則隨機再選擇一個拉桿,同時更新這個拉桿的預估中獎概率,以便於下次選擇做參考。
3. 情境-預估回報方法
首先, 將 多臂老虎機 每個拉桿設置一個比較高的預估中獎概率(比如都是100%),然後每拉一次選中的拉桿, 這個拉桿的預估概率就會改變。我第一次選擇拉第一個拉桿,發現沒有中獎,那這個拉桿的預估中獎概率就從100%變成了50%了。下一次選擇拉桿的時候,第一個拉桿的預估概率就不是最高了,我們就去找這個時候預估概率最高的拉桿來拉,每拉一次更新一下這個拉桿的預估中獎概率。
何謂 多臂老虎機 測試?
多臂老虎機 ,指的則是很多台 吃角子老虎機 給玩家選擇,每一台機器可以得到的期望報酬皆不一樣。站在玩家的立場,目標應該是透過機器的選擇,在遊戲中獲得最大「期望報酬」。現在有一種測試方法叫做「 多臂老虎機 測試」,可做為A/B測試的替代方案。請想像一下,您置身在一座滿是 多臂老虎機 的大賭場,裡面有很多台不同的 吃角子老虎機 。因為每一台老虎機,都有一個下拉的槓桿,讓您在投幣下注後可以拉動。而您認為,某些特定機台出現連線的頻率,要比其他 老虎機 來得高,在時間有限的情況下,如何讓自己快速地滿載而歸。
其實這是一個經典的思考實驗。因為每個人只有兩隻手臂。一次最多只能拉兩台機器,答案就是把自己變成一隻八爪章魚,因為唯有在最短時間內,儘量去拉動不同機台,並且發現哪個機台的勝率較高,接著就將更多的錢投到該機台上
多臂老虎機 問題點
有一個賭徒承認有一個 多臂老虎機 ,從一開始,他就真的不知道每個 多臂老虎機 的真實情況,他怎麼知道 老虎機 的真實情況。結果來選擇下一頭的結果或者是否停止賭注,來釋放自己的從結果到的結果。
關於多台 老虎機 因為 多臂老虎機 在以前是有名的問題,這是一條土匪的干貨結果,而玩 老虎機 的來源就像是一條帶子,就像是 老虎機 被掏空,就像遇到了一樣。 而在 多臂老虎機 問題中,我們面對 多臂老虎機 ,原理其實很簡單,我們有一隻 k 臂的 多臂老虎機 ,每支吐幣的機率不同,而我們不知道這個機率如何分布,我們如何在有限回合取得較大的報酬?
最簡單的想法是隨機拉臂,再來就是透過有限的測試,找到報酬最大的那支臂,狂拉!聽起來我們可以結合上述兩種策略,一面探索未知的報酬,一面著力在現有最大報酬的那支臂