講座報(bào)告主題:大模型偏好對(duì)齊與知識(shí)編輯前沿進(jìn)展
專(zhuān)家姓名:王翔
日期:2025-05-24 時(shí)間:11:10
地點(diǎn):會(huì)議中心第一報(bào)告廳
主辦單位:計(jì)算機(jī)科學(xué)與通信工程學(xué)院
主講簡(jiǎn)介:王翔,中國(guó)科學(xué)技術(shù)大學(xué)特任教授、博導(dǎo),國(guó)家青年人才。在相關(guān)領(lǐng)域的國(guó)際頂會(huì)(如SIGIR、WWW、NeurIPS、ICLR)和頂刊(如IEEE TPAMI、ACM TOIS)上發(fā)表論文70余篇,谷歌學(xué)術(shù)引用2萬(wàn)余次,H-因子56,Elsevier中國(guó)高被引學(xué)者。四次獲得國(guó)際頂會(huì)最佳論文獎(jiǎng)項(xiàng),兩次獲國(guó)際基礎(chǔ)科學(xué)大會(huì)前沿科學(xué)獎(jiǎng),2025年獲得人工智能?chē)?guó)際頂會(huì)ICLR杰出論文獎(jiǎng),2024年獲ACM SIGIR青年學(xué)者獎(jiǎng)和吳文俊人工智能自然科學(xué)一等獎(jiǎng),入選《麻省理工科技評(píng)論》MIT TR35榜單、AI100青年先鋒。主持多項(xiàng)國(guó)家級(jí)項(xiàng)目,如基金委重大研究計(jì)劃培育項(xiàng)目,科技部重點(diǎn)研發(fā)計(jì)劃課題等。研究專(zhuān)長(zhǎng):信息推薦與挖掘、大模型、可信人工智能等。
主講內(nèi)容簡(jiǎn)介:偏好對(duì)齊和知識(shí)編輯是大模型前沿研究方向。偏好對(duì)齊旨在使大模型的輸出與人類(lèi)價(jià)值觀(guān)和偏好保持一致,從而提升模型的可信度和可用性;知識(shí)編輯則關(guān)注如何高效、安全地更新大模型中的知識(shí),以應(yīng)對(duì)動(dòng)態(tài)變化的世界和潛在的風(fēng)險(xiǎn)。首先,針對(duì)大模型偏好對(duì)齊中的三大挑戰(zhàn),我們提出了三項(xiàng)解決方案:1)針對(duì)偏好數(shù)據(jù)中的噪聲問(wèn)題(如標(biāo)簽反轉(zhuǎn)),我們開(kāi)發(fā)了一種魯棒的噪聲過(guò)濾機(jī)制,有效提升了偏好數(shù)據(jù)質(zhì)量;2)針對(duì)模型對(duì)不同質(zhì)量數(shù)據(jù)訓(xùn)練效果不一致的問(wèn)題,我們提出了動(dòng)態(tài)調(diào)整策略,使模型能夠自適應(yīng)地優(yōu)化訓(xùn)練過(guò)程;3)針對(duì)參考模型不可靠的問(wèn)題,我們?cè)O(shè)計(jì)了一種基于多源參考模型的融合方法,顯著提升了對(duì)齊的穩(wěn)定性和可靠性。其次,在大模型知識(shí)編輯方面,我們提出了兩項(xiàng)創(chuàng)新工作:1)面向大語(yǔ)言模型的零空間知識(shí)編輯技術(shù),通過(guò)優(yōu)化知識(shí)嵌入空間,實(shí)現(xiàn)了對(duì)已有知識(shí)的最大保護(hù)和新知識(shí)的完美學(xué)習(xí);2)將零空間知識(shí)編輯擴(kuò)展至多模態(tài)大模型(如文生圖模型),解決了不安全內(nèi)容生成的挑戰(zhàn),為多模態(tài)模型的安全應(yīng)用提供了新思路。
歡迎師生參加!