久操免费在线观看 I 日韩精品久久一区二区 I 免费日本特黄 I 国产 亚洲 制服 无码 中文 I 中文无码一区二区不卡av I 午夜亚洲国产理论片亚洲2020 I 国产精品久久久久久久久搜平片 I 亚洲欧美日韩愉拍自拍美利坚 I 日韩欧美高清在线视频 I 久九九 I 激情综合一区二区三区 I av首页在线 I 国产网站免费看 I 精品伊人久久久 I 久久久久久久无码高潮 I 精品少妇一区二区视频在线观看 I 精品久久91 I 亚洲美女天堂网 I 色中文字幕 I 国产精品乱子乱xxxx I 7777精品伊久久久大香线蕉软件的优点 I 亚洲日韩精品无码专区网址 I 天天插视频 I 欧美成人免费小视频 I 黄色一级一片 I 婷婷久草 I 欧美一级黄色片免费看 I 超碰人人国产 I 一级黄色片免费播放 I 欧美性受xxxx黑人xyx性爽 I 亚洲a√ I 国产精品熟女人妻 I 国产一二区在线观看

ENGLISH 中文(簡(jiǎn)體)
設(shè)為首頁(yè) 加入收藏
新聞中心
 
 當(dāng)前位置: 首頁(yè) > 新聞中心 > 行業(yè)快訊 > 【行業(yè)資訊】中科院自動(dòng)化所基于MindSpore推出全球首個(gè)三模態(tài)預(yù)訓(xùn)練模型
【行業(yè)資訊】中科院自動(dòng)化所基于MindSpore推出全球首個(gè)三模態(tài)預(yù)訓(xùn)練模型

日前,中國(guó)科學(xué)院自動(dòng)化所(簡(jiǎn)稱“自動(dòng)化所”)基于全場(chǎng)景AI計(jì)算框架MindSpore訓(xùn)練完成全球首個(gè)圖文音(視覺(jué)-文本-語(yǔ)音)三模態(tài)預(yù)訓(xùn)練模型(OPT-Omni-Perception pre-Trainer),該模型同時(shí)具備跨模態(tài)理解與跨模態(tài)生成能力,標(biāo)志著預(yù)訓(xùn)練模型工作獲得突破性進(jìn)展。

自GPT/Bert模型提出后,預(yù)訓(xùn)練模型迎來(lái)了爆發(fā)式發(fā)展,其具有在無(wú)監(jiān)督情況下自動(dòng)學(xué)習(xí)不同任務(wù)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力,而多模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能的路徑探索。然而,互聯(lián)網(wǎng)音視頻數(shù)據(jù)呈高速增長(zhǎng),占比超過(guò)80%,純文本的預(yù)訓(xùn)練模型只涵蓋了互聯(lián)網(wǎng)數(shù)據(jù)中的較少部分,更豐富的語(yǔ)音、圖像、視頻等數(shù)據(jù)并未被充分利用與學(xué)習(xí),且人類的信息獲取、環(huán)境感知、知識(shí)學(xué)習(xí)與表達(dá),都是通過(guò)多模態(tài)信息方式來(lái)執(zhí)行的。OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever 在推特上發(fā)文表示,“人工智能的長(zhǎng)期目標(biāo)是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò),即AI能夠?qū)W習(xí)不同模態(tài)之間的概念,從而更好地理解世界”。為實(shí)現(xiàn)更加通用的人工智能模型,預(yù)訓(xùn)練模型必然由單模態(tài)往多模態(tài)方向發(fā)展,將文本、語(yǔ)音、圖像、視頻等多模態(tài)內(nèi)容聯(lián)合起來(lái)進(jìn)行學(xué)習(xí)。自動(dòng)化所瞄準(zhǔn)這一方向,成功構(gòu)建視覺(jué)-文本-語(yǔ)音三模態(tài)預(yù)訓(xùn)練模型。

目前已有的多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個(gè)模態(tài)(如圖像和文本,或者視頻和文本),忽視了周圍環(huán)境中普遍存在的語(yǔ)音信息,并且模型極少兼具理解與生成能力,難以在生成任務(wù)與理解類任務(wù)中同時(shí)取得良好表現(xiàn)。針對(duì)這些問(wèn)題,自動(dòng)化此次提出的視覺(jué)-文本-語(yǔ)音三模態(tài)預(yù)訓(xùn)練模型采用分別基于詞條級(jí)別(Token-level)、模態(tài)級(jí)別(Modality-level)以及樣本級(jí)別(Sample-level)的多層次、多任務(wù)子監(jiān)督學(xué)習(xí)框架,更關(guān)注圖-文-音三模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)特性以及跨模態(tài)轉(zhuǎn)換問(wèn)題,對(duì)更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐。該模型不僅可實(shí)現(xiàn)跨模態(tài)理解(比如圖像識(shí)別、語(yǔ)音識(shí)別等任務(wù)),也能完成跨模態(tài)生成(比如從文本生成圖像、從圖像生成文本、語(yǔ)音生成圖像等任務(wù))。靈活的自監(jiān)督學(xué)習(xí)框架可同時(shí)支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本。

三模態(tài)預(yù)訓(xùn)練模型基本原理

自動(dòng)化所首次提出了視覺(jué)-文本-語(yǔ)音三模態(tài)預(yù)訓(xùn)練模型,實(shí)現(xiàn)了三模態(tài)間相互轉(zhuǎn)換和生成。其核心原理是視覺(jué)、文本、語(yǔ)音不同模態(tài)通過(guò)各自編碼器映射到統(tǒng)一語(yǔ)義空間,然后通過(guò)多頭自注意力機(jī)制(Multi-head Self-attention)學(xué)習(xí)模態(tài)之間的語(yǔ)義關(guān)聯(lián)以及特征對(duì)齊,形成多模態(tài)統(tǒng)一知識(shí)表示,再利用編碼后的多模態(tài)特征,然后通過(guò)多頭自注意力機(jī)制進(jìn)行通過(guò)解碼器分別生成文本、圖像和語(yǔ)音。這里三模態(tài)互相轉(zhuǎn)化和相互生成示意如圖1所示:

圖文音三模態(tài)相互轉(zhuǎn)換與生成

多層次多任務(wù)自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)

自動(dòng)化提出的三模態(tài)預(yù)訓(xùn)練模型由單模態(tài)編碼器、跨模態(tài)編碼器和跨模態(tài)解碼器構(gòu)成。針對(duì)圖文音三模態(tài)數(shù)據(jù),我們提出三級(jí)預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)方式:詞條級(jí)別 (Token-level,Modality-level),模態(tài)級(jí)(Modality-level masking)以及樣本級(jí)別(Sample-level masking) 。具體包括:

(1)詞條級(jí)別(Token-level)學(xué)習(xí):(a)文本掩碼建模(Masked Language Modeling):隨機(jī)掩蓋一些文本單詞,需要模型根據(jù)上下文預(yù)測(cè)被掩蓋的單詞是什么;(b)視覺(jué)掩碼建模(Masked Vision Modeling):隨機(jī)掩蓋一些圖像區(qū)域,讓模型預(yù)測(cè)被掩蓋的區(qū)域;(c)語(yǔ)音掩碼建模(Masked Audio Modeling):隨機(jī)掩蓋一些語(yǔ)音詞條(token),模型需要預(yù)測(cè)被掩蓋的詞條(token)是什么。

(2)模態(tài)級(jí)別(Modality-level)學(xué)習(xí):包括文本重構(gòu)和圖像重構(gòu)兩個(gè)任務(wù),分別學(xué)習(xí)重構(gòu)輸入文本和圖像。團(tuán)隊(duì)引入模態(tài)級(jí)別掩碼(Modality-Level Masking)機(jī)制隨機(jī)地掩蓋一個(gè)模態(tài)信息,使得模型需要根據(jù)其他模態(tài)信息對(duì)當(dāng)前模態(tài)進(jìn)行重構(gòu),從而能夠進(jìn)行下游的跨模態(tài)生成任務(wù)。這個(gè)機(jī)制也帶來(lái)另一個(gè)好處—它使模型不僅能夠處理三模態(tài)輸入,也能處理兩模態(tài)輸入,從而適應(yīng)下游的兩模態(tài)任務(wù)。

(3)樣本級(jí)別(Sample-level)學(xué)習(xí):該預(yù)訓(xùn)練任務(wù)是通過(guò)對(duì)每個(gè)樣本隨機(jī)地替換三種模態(tài)信息中的一種或兩種,讓模型來(lái)預(yù)測(cè)替換哪些模態(tài)。

多維度自動(dòng)混合并行極簡(jiǎn)訓(xùn)練

訓(xùn)練多模態(tài)大模型,用戶需綜合考慮模型參數(shù)量、計(jì)算量、計(jì)算類型、集群帶寬拓?fù)浜蜆颖緮?shù)量等才能設(shè)計(jì)出性能較優(yōu)的并行切分策略,在考慮模型編碼算法以外,還需要編寫(xiě)大量并行切分和通信代碼。

MindSpore是業(yè)界首個(gè)支持全自動(dòng)并行的AI計(jì)算框架,從如下維度進(jìn)行多模態(tài)模型的加速訓(xùn)練。(1)MindSpore同時(shí)使用數(shù)據(jù)并行、算子級(jí)模型并行、Pipeline模型并行、優(yōu)化器模型并行、異構(gòu)并行、重計(jì)算、高效內(nèi)存復(fù)用多維度、全種類的分布式并行策略;(2)依托多種類、多維度的并行策略,原創(chuàng)集群拓?fù)涓兄亩嗑S度自動(dòng)混合并行,實(shí)現(xiàn)超大模型自動(dòng)切分,取得了比人工編寫(xiě)切分策略更優(yōu)的結(jié)果,顯著提升集群加速能力;(3)基于多維混合自動(dòng)并行技術(shù),原創(chuàng)新的DNN分布式并行編程范式,實(shí)現(xiàn)一行代碼完成串行算法到并行算法的切換,使得開(kāi)發(fā)者可以專注算法的研究;

基于上述優(yōu)勢(shì),MindSpore為復(fù)雜的多模態(tài)大模型提供了極好的訓(xùn)練加速能力,同時(shí)也極大減少了系統(tǒng)性能優(yōu)化的代價(jià),大大縮短了代碼開(kāi)發(fā)、調(diào)試和訓(xùn)練的周期。

實(shí)驗(yàn)結(jié)果

自動(dòng)化所主要采用Open Images數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù),該數(shù)據(jù)包含圖像、文本與音頻數(shù)據(jù)。此外我們也額外地使用兩模態(tài)數(shù)據(jù),如Conceptual Caption圖文數(shù)據(jù)集,Visual Genome圖文數(shù)據(jù)集等。當(dāng)加入額外的兩模態(tài)數(shù)據(jù)時(shí),這些兩模態(tài)與三模態(tài)數(shù)據(jù)則被隨機(jī)混合進(jìn)行訓(xùn)練。

自動(dòng)化所主要進(jìn)行了以下兩方面的實(shí)驗(yàn)驗(yàn)證:

(1)圖文音三模態(tài)關(guān)聯(lián)編碼與相互生成性能:分別在多模態(tài)融合的圖像分類、任意兩模態(tài)的相互檢索以及語(yǔ)音識(shí)別任務(wù)中,與常規(guī)全監(jiān)督方法進(jìn)行了性能比較,均取得了性能上的顯著提升。其中在多模態(tài)融合的圖像分類任務(wù)中,與常規(guī)全監(jiān)督的Resnet101網(wǎng)絡(luò)模型相比,性能提升5%;加入語(yǔ)音模態(tài)信息能夠明顯提升以文搜圖的性能,驗(yàn)證了聯(lián)合建模視覺(jué)-文本-語(yǔ)音三模態(tài)信息的必要性。

(2)多模態(tài)下游任務(wù)性能:分別在跨模態(tài)檢索、視覺(jué)問(wèn)答與圖像語(yǔ)義描述任務(wù)中,與

當(dāng)前最新的圖文兩模態(tài)預(yù)訓(xùn)練模型進(jìn)行了性能比較,在補(bǔ)充了圖文兩模態(tài)數(shù)據(jù)參與預(yù)訓(xùn)練的模型上,取得了具有競(jìng)爭(zhēng)力甚至更好的實(shí)驗(yàn)性能。

以圖生音示例(短視頻)

以音生圖示例(短視頻)

總結(jié)

三模態(tài)預(yù)訓(xùn)練模型的提出將改變當(dāng)前單一模型對(duì)應(yīng)單一任務(wù)的人工智研發(fā)范式,三模態(tài)圖文音的統(tǒng)一語(yǔ)義表達(dá)將大幅提升文本、語(yǔ)音、圖像和視頻等領(lǐng)域的基礎(chǔ)任務(wù)性能,并在多模態(tài)內(nèi)容的理解、搜索、推薦和問(wèn)答,語(yǔ)音識(shí)別和合成,人機(jī)交互和無(wú)人駕駛等商業(yè)應(yīng)用中具有潛力巨大的市場(chǎng)價(jià)值。

“大數(shù)據(jù)+大模型+多模態(tài)”多任務(wù)統(tǒng)一學(xué)習(xí)將引領(lǐng)就技術(shù)發(fā)展的潮流,中科院自動(dòng)化所所長(zhǎng)徐波將在2021世界人工智能大會(huì)(WAIC)昇騰人工智能高峰論壇上介紹跨模態(tài)通用人工智能平臺(tái),更多信息敬請(qǐng)關(guān)注。


文章來(lái)源:科學(xué)放大鏡


上海貿(mào)發(fā)展覽服務(wù)有限公司 深圳貿(mào)發(fā)會(huì)展服務(wù)有限公司
深圳市寶安區(qū)福海街道新和社區(qū)寶安大道6093號(hào)中正財(cái)富大廈311室
本站內(nèi)容歸 ?上海貿(mào)發(fā)會(huì)展服務(wù)有限公司 ?版權(quán)所有
滬ICP備17023807號(hào)-16

電話:張先生 18621271618(同微信)
傳真:021-37048779
 
主站蜘蛛池模板: 成年男女免费视频网站 | 老熟女高潮一区二区三区 | 日韩精品无码一区二区 | 天天摸天天摸色综合舒服网 | 亚洲精品无码久久久久不卡 | 中文字幕亚洲乱码熟女在线 | 97国语精品自产拍 | 看曰本女人大战黑人视频 | 色婷婷av一区二区三区之红樱桃 | 特级aaaaaaaaa毛片免费视频 | 国产日韩在线时看高清视频 | 无码高潮少妇毛多水多水 | 永久中文字幕免费视频网站 | 亚洲aⅴ天堂av天堂无码 | 精品人伦一区二区三电影 | 3d动漫精品一区二区三区 | 欧美日产国产精选 | 亚洲人成网77777色在线播放 | 国产乱女婬av麻豆国产 | 天天躁日日躁狠狠躁av麻豆男男 | 99精品国产兔费观看久久 | 亚洲色大成永久ww网站 | 国产精品无码一区二区三区在 | 夜夜澡人摸人人添人人看 | 精品欧美激情在线看 | 国产精品精华液网站 | 欧美极品少妇性运交 | 思思99热久久精品在线6 | 87福利午夜福利视频 | 精品无人国产偷自产在线 | 久9视频这里只有精品8 | 激情五月婷婷 | 人妻无码一区二区视频 | 亚洲成av人在线观看网站 | 亚洲精品午夜无码电影网 | 午夜亚洲影院 | h无码精品3d动漫在线观看 | 久久影院午夜伦手机不四虎卡 | 瑜伽裤国产一区二区三区 | 美女扒开尿口让男人桶 | 高清乱码一区二区三区 |