物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

文生視頻、文生音樂(lè)、單次處理200萬(wàn)字,2024年AI席卷一切?

作者:來(lái)源網(wǎng)絡(luò)(侵權(quán)刪)
日期:2024-03-27 10:49:26
摘要:無(wú)論是Sora、Suno V3、Kimi還是ChatGPT,它們都是基于AI大模型的變革性的、軟件形態(tài)的生產(chǎn)效率工具,屬于生成式AI的范疇。

2月,OpenAI發(fā)布文生視頻大模型Sora,特點(diǎn)在于Sora可以根據(jù)用戶提供的文本創(chuàng)建連貫、逼真的視頻,且時(shí)長(zhǎng)能做到60S,遠(yuǎn)超行業(yè)平均文生視頻長(zhǎng)度。一般認(rèn)為,Sora將在廣告、短視頻、影視、游戲等行業(yè)引發(fā)變革。


3月,文生音樂(lè)應(yīng)用模型Suno V3引發(fā)大范圍關(guān)注,因其只需要一句提示語(yǔ)(比如描述音樂(lè)風(fēng)格和主題),就能創(chuàng)作出滿足用戶需求的音樂(lè)作品,歌曲時(shí)長(zhǎng)可達(dá)2分鐘,并且無(wú)需用戶具有專(zhuān)業(yè)樂(lè)理知識(shí)。如果產(chǎn)品成熟,未來(lái)有可能替代廣告、電視、影視等行業(yè)部分音樂(lè)創(chuàng)作。


國(guó)內(nèi),上周AI大模型明星企業(yè)月之暗面宣布旗下Kimi智能助手已支持200萬(wàn)字無(wú)損上下文輸入,半年內(nèi)單次可以處理的數(shù)據(jù)長(zhǎng)度從20萬(wàn)級(jí)躍遷到了200萬(wàn)級(jí)。Kimi描述如此大規(guī)模輸入能力的價(jià)值,在于過(guò)去要10000小時(shí)才能成為專(zhuān)家的領(lǐng)域,現(xiàn)在只需要10分鐘,Kimi就能接近這個(gè)領(lǐng)域初級(jí)專(zhuān)家的水平。比如用戶上傳英偉達(dá)過(guò)去幾年的完整財(cái)報(bào),就可以讓Kimi成為英偉達(dá)財(cái)務(wù)研究專(zhuān)家,幫用戶分析總結(jié)英偉達(dá)歷史上的重要發(fā)展節(jié)點(diǎn)。目前,支持200萬(wàn)字上下文的Kimi正在內(nèi)測(cè)階段。預(yù)計(jì),這樣的能力將在客戶咨詢(xún)等行業(yè)將產(chǎn)生影響。


圖片


無(wú)論是Sora、Suno V3、Kimi還是ChatGPT,它們都是基于AI大模型的變革性的、軟件形態(tài)的生產(chǎn)效率工具,屬于生成式AI的范疇。適用的行業(yè)并非是單純的互聯(lián)網(wǎng)或移動(dòng)互聯(lián)網(wǎng),而是一個(gè)個(gè)正在生成內(nèi)容并且早有固化知識(shí)庫(kù)的行業(yè),無(wú)論內(nèi)容形態(tài)是文字、圖像、視頻或者其他。


所以,又有一大批與AI相關(guān)的科技上市公司,正在被投資者詢(xún)問(wèn)對(duì)Kimi、對(duì)生成式AI的看法與是否布局。


人工智能的發(fā)展經(jīng)歷了3個(gè)階段

大模型將人工智能的關(guān)注點(diǎn)從感知智能轉(zhuǎn)向生成式內(nèi)容



人工智能第一個(gè)階段是上世紀(jì)末的專(zhuān)家系統(tǒng)時(shí)代,特征是將專(zhuān)家的領(lǐng)域知識(shí)轉(zhuǎn)變?yōu)橛?jì)算機(jī)模型,用以推理并得出與專(zhuān)家相同的結(jié)論。


第二階段是不久前的“機(jī)器學(xué)習(xí)+深度學(xué)習(xí)”時(shí)代,在以CNN、RNN為代表的神經(jīng)網(wǎng)絡(luò)的賦能下,比如車(chē)牌識(shí)別、人臉識(shí)別這類(lèi)計(jì)算機(jī)視覺(jué)應(yīng)用,識(shí)別準(zhǔn)確率從過(guò)去的92%、93%,提高到了99%以上,在該階段有部分產(chǎn)品徹底實(shí)現(xiàn)了產(chǎn)品化、規(guī)?;瘧?yīng)用。


第三階段即是眼下的大模型時(shí)代,起源是2017年谷歌發(fā)表的一篇論文《AttentionIsAllYouNeed》,里面提出了革命性的Transformer深度神經(jīng)網(wǎng)絡(luò),一舉將深度學(xué)習(xí)的模型參數(shù)提高到了上億級(jí)別,并且在之后的迭代發(fā)展中,模型參數(shù)被逐步提升到了幾十億、幾百億甚至幾千億,意味著模型的復(fù)雜程度和學(xué)習(xí)能力逐步提高,越來(lái)越有接近人的表現(xiàn)。


也就是說(shuō),大模型產(chǎn)品并非采用上個(gè)時(shí)代模型參數(shù)受限的CNN、RNN架構(gòu),而是借助Transformer另起爐灶,達(dá)到了一種類(lèi)似“小孩開(kāi)竅”的「涌現(xiàn)」現(xiàn)象——當(dāng)模型突破某個(gè)規(guī)模時(shí),能力水平直線上升。


這也就是技術(shù)積累到一定程度后,近年我們尤其覺(jué)得AI能做的事情更多了,并且效果更好,比如文本生成、語(yǔ)言理解、知識(shí)對(duì)話、邏輯推理等等。


再由于Transformer是一項(xiàng)新技術(shù),無(wú)論是傳統(tǒng)玩家還是新興企業(yè)都處在接近的起跑線,業(yè)界參與大模型的玩家就非常多、類(lèi)型非常廣,各方都希望通過(guò)大模型抓住新一輪產(chǎn)業(yè)機(jī)會(huì)。


對(duì)AI的焦慮、炒作背后

還有哪些真相?



與媒體或資本的炒作不同,業(yè)內(nèi)也對(duì)大模型、生成式AI有清醒的認(rèn)知。


首先,生成式AI很難完全取代人類(lèi),更強(qiáng)調(diào)對(duì)智力工作進(jìn)行替代或加強(qiáng),衡量標(biāo)準(zhǔn)可以是對(duì)人類(lèi)工作的替代率達(dá)到10%還是20%甚至30%、40%,但無(wú)論如何,更高要求的工作可能還需人類(lèi)完成。


其次,大模型能力可分為知識(shí)、推理、執(zhí)行三層結(jié)構(gòu)?,F(xiàn)在很多生產(chǎn)力工具解決的是知識(shí)層的問(wèn)題,推理層還鮮少進(jìn)入,執(zhí)行層的想象空間最大。


另外,有些大模型的商業(yè)化可能是形成標(biāo)準(zhǔn)化的產(chǎn)品,但也有些大模型商業(yè)模式是“產(chǎn)品+服務(wù)”,其服務(wù)階段要完成對(duì)企業(yè)業(yè)務(wù)的咨詢(xún)、對(duì)數(shù)據(jù)的理解、對(duì)模型的訓(xùn)練/部署/調(diào)優(yōu)等工作,實(shí)現(xiàn)起來(lái)更加復(fù)雜。


這也是為什么,除了存在追逐熱點(diǎn)的一批企業(yè),也存在另一批直白表達(dá)對(duì)生成式AI保持觀望的公司,相比于成為技術(shù)的創(chuàng)新者,行業(yè)中的大多數(shù)應(yīng)該在等待著成熟的AI應(yīng)用,為真正的核心業(yè)務(wù)發(fā)展帶來(lái)增益。


至于在AI浪潮中受益最早并且最大的公司,極有可能是英偉達(dá)。因?yàn)榇竽P偷募夹g(shù)壁壘在于數(shù)據(jù)、算力和算法,而英偉達(dá)可稱(chēng)為是全球算力市場(chǎng)金字塔尖的企業(yè)。




想了解更多智能產(chǎn)品和企業(yè)?那就來(lái)IOTE 2024 第二十一屆國(guó)際物聯(lián)網(wǎng)展·上海站


時(shí)間:2024年4月24-26日

地點(diǎn):上海世博展覽館


展會(huì)亮點(diǎn):全球超300+家參展企業(yè)、展會(huì)面積超13,000㎡、專(zhuān)業(yè)觀眾30,000+,覆蓋全產(chǎn)業(yè)鏈、10+平行專(zhuān)業(yè)論壇(主題覆蓋RFID、智能傳感器、高精度定位、智慧園區(qū)、智慧工廠、智慧健康養(yǎng)老、智慧應(yīng)急減災(zāi)、智慧能源)。


圖片

掃碼加入,免費(fèi)觀展/參會(huì)/洽談商機(jī)