華為諾亞方舟實(shí)驗(yàn)室提出基于強(qiáng)化學(xué)習(xí)的因果發(fā)現(xiàn)算法
12月30日消息,華為諾亞方舟實(shí)驗(yàn)室被ICLR 2020接收的一篇滿分論文《CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING》介紹:華為諾亞方舟實(shí)驗(yàn)室因果研究團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)應(yīng)用到打分法的因果發(fā)現(xiàn)算法中,通過基于自注意力機(jī)制的encoder-decoder神經(jīng)網(wǎng)絡(luò)模型探索數(shù)據(jù)之間的關(guān)系,結(jié)合因果結(jié)構(gòu)的條件,并使用策略梯度的強(qiáng)化學(xué)習(xí)算法對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,最終得到因果圖結(jié)構(gòu)。
在學(xué)術(shù)界常用的一些數(shù)據(jù)模型中,該方法在中等規(guī)模的圖上的表現(xiàn)優(yōu)于其他方法,包括傳統(tǒng)的因果發(fā)現(xiàn)算法和近期的基于梯度的算法。同時(shí)該方法非常靈活,可以和任意的打分函數(shù)結(jié)合使用。
12月30日消息,華為諾亞方舟實(shí)驗(yàn)室被ICLR 2020接收的一篇滿分論文《CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING》介紹:華為諾亞方舟實(shí)驗(yàn)室因果研究團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)應(yīng)用到打分法的因果發(fā)現(xiàn)算法中,通過基于自注意力機(jī)制的encoder-decoder神經(jīng)網(wǎng)絡(luò)模型探索數(shù)據(jù)之間的關(guān)系,結(jié)合因果結(jié)構(gòu)的條件,并使用策略梯度的強(qiáng)化學(xué)習(xí)算法對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,最終得到因果圖結(jié)構(gòu)。
在學(xué)術(shù)界常用的一些數(shù)據(jù)模型中,該方法在中等規(guī)模的圖上的表現(xiàn)優(yōu)于其他方法,包括傳統(tǒng)的因果發(fā)現(xiàn)算法和近期的基于梯度的算法。同時(shí)該方法非常靈活,可以和任意的打分函數(shù)結(jié)合使用。
