近日,快手首次提出生成式強(qiáng)化學(xué)習(xí)出價技術(shù),并將其應(yīng)用于大規(guī)模廣告系統(tǒng)中。該項技術(shù)顯著提升了廣告競價的智能化水平,實現(xiàn)了出價策略從傳統(tǒng)“依賴單步狀態(tài)決策”到新一代“序列決策”的關(guān)鍵跨越,在為廣告主帶來更高投放回報的同時,也提升了平臺整體收益,真正實現(xiàn)了雙贏。2025年至今,該技術(shù)已成功推動快手廣告收入提升3%,成效顯著。
廣告出價:實時競價中的“智能大腦”
在實時競價(RTB)廣告系統(tǒng)中,出價模塊作為連接廣告主與流量的核心樞紐,需要在多重約束條件下實現(xiàn)廣告投放效果的最優(yōu)化。
這一過程面臨三大挑戰(zhàn)。首先是既要控制支出,又要追求效益。廣告主不僅需要將單日花費(fèi)嚴(yán)格控制在預(yù)算范圍內(nèi),還應(yīng)力求降低每次轉(zhuǎn)化的成本,實現(xiàn)成本效益的雙重優(yōu)化。
其次是,未來環(huán)境的不確定性。系統(tǒng)難以預(yù)知即將到來的流量狀況與競爭對手行為,因此必須依賴實時花費(fèi)與成本等數(shù)據(jù),動態(tài)調(diào)整出價策略以應(yīng)對波動市場。
最后是決策之間的連鎖影響。每一次出價不僅直接影響廣告的展示與消耗,還會改變賬戶狀態(tài)(如剩余預(yù)算),進(jìn)而干擾后續(xù)出價決策,形成一個連續(xù)且復(fù)雜的序列決策問題。
三代技術(shù)革新,快手提出新一代生成式強(qiáng)化學(xué)習(xí)出價技術(shù)
快手出價技術(shù)已歷經(jīng)三代演進(jìn):從PID控制——基于當(dāng)前狀態(tài)與目標(biāo)的偏差進(jìn)行調(diào)節(jié),響應(yīng)直接但適應(yīng)性有限,難以應(yīng)對復(fù)雜多變的競價環(huán)境;到第二代MPC預(yù)測模型——能夠預(yù)測短期未來并優(yōu)化動作,但預(yù)測范圍有限,易陷局部最優(yōu);再到第三代強(qiáng)化學(xué)習(xí)——通過歷史數(shù)據(jù)學(xué)習(xí)不同狀態(tài)下的最優(yōu)出價策略,最大化長期收益,兼顧效果與安全性。
近年來,盡管強(qiáng)化學(xué)習(xí)在自動出價中表現(xiàn)優(yōu)異,但其決策仍依賴單步狀態(tài)信息,對序列歷史利用不足。而生成式模型擅長對序列數(shù)據(jù)進(jìn)行建模和生成,卻不擅長直接優(yōu)化目標(biāo)收益。
面對這一挑戰(zhàn),快手創(chuàng)新融合兩類技術(shù),提出生成式強(qiáng)化學(xué)習(xí)出價技術(shù)——在繼承生成模型序列建模能力的基礎(chǔ)上,引入強(qiáng)化學(xué)習(xí)的目標(biāo)導(dǎo)向優(yōu)化機(jī)制,實現(xiàn)出價策略在長序列決策中的新突破。
兩大核心算法實現(xiàn)廣告出價“多維思考”,助推智能決策升級
在將生成模型應(yīng)用于強(qiáng)化出價策略的過程中,主要面臨兩大挑戰(zhàn):一是對高質(zhì)量數(shù)據(jù)集的依賴較強(qiáng),限制了泛化能力;二是生成模型難以直接優(yōu)化序列整體收益,導(dǎo)致出價策略與廣告主全局目標(biāo)存在偏差。

針對這些挑戰(zhàn),快手提出了GAVE和CBD兩大創(chuàng)新算法。GAVE算法融合了Score-based RTG機(jī)制與價值函數(shù)引導(dǎo)的動作探索策略,顯著提升了離線訓(xùn)練中的探索能力,該成果助力團(tuán)隊榮獲NeurIPS 2024自動出價競賽雙賽道冠軍。

CBD算法則聚焦于生成模型與優(yōu)化目標(biāo)的對齊問題,引入“Completer(擴(kuò)散補(bǔ)全)”和“Aligner(偏好對齊)”雙模塊,通過補(bǔ)全未來狀態(tài)軌跡并進(jìn)行校準(zhǔn),使出價策略更貼合廣告主真實需求,提升了系統(tǒng)長程規(guī)劃與決策可解釋性。
2025年至今,生成式強(qiáng)化學(xué)習(xí)出價技術(shù)已在快手廣告系統(tǒng)中全面部署,并推動平臺廣告收入提升3%。在多項關(guān)鍵客戶指標(biāo)上實現(xiàn)突破——如在成本控制場景中,消耗提升2.0%,CPA達(dá)標(biāo)率提升1.9%。
展望未來,快手將圍繞兩大方向持續(xù)演進(jìn)。一是構(gòu)建出價基座大模型,整合多場景數(shù)據(jù)訓(xùn)練通用模型,發(fā)揮規(guī)模效應(yīng);二是發(fā)展出價推理大模型,引入大語言模型增強(qiáng)推理能力,提升可解釋性與復(fù)雜決策水平。
快手將繼續(xù)推動自動出價技術(shù)向更高層次的智能化邁進(jìn),為數(shù)字營銷行業(yè)注入創(chuàng)新動力。