編者按:OpenAI確實(shí)帶來了人工智能的“iPhone時(shí)刻”,而如今谷歌在AI時(shí)代,仍是“iPhone時(shí)刻”之后跟隨的Android……
在前一天晚上被OpenAI狠狠“截胡”的谷歌,在2024 I/O大會(huì)上,終于給出了有力的“回?fù)?rdquo;。
美國當(dāng)?shù)貢r(shí)間5月14日上午10點(diǎn)(北京時(shí)間5月15日凌晨1點(diǎn)),2024 Google I/O大會(huì)正式召開,本次大會(huì)的主題演講將圍繞人工智能展開,谷歌公布了Gemini AI的最新進(jìn)展,并圍繞谷歌核心業(yè)務(wù)和生成式人工智能的融合展開分享。不僅帶來了“進(jìn)階版”的Gemini Pro 1.5,還帶來了全面對(duì)標(biāo)Sora文生視頻大模型的Veo。
谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)在活動(dòng)現(xiàn)場表示,目前有超過1500萬開發(fā)者在使用Gemini做開發(fā)。而Gemini最近三個(gè)月時(shí)間達(dá)到了100萬訂閱用戶。
全新的Gemini大模型產(chǎn)品矩陣
首先,在本屆I/O大會(huì)上,谷歌宣布了多項(xiàng)技術(shù)能力的升級(jí)。
“進(jìn)階版”Gemini 1.5 Pro
I/O大會(huì)上,Gemini 1.5 Pro進(jìn)階版開放給開發(fā)者,進(jìn)階后,最大支持上下文窗口從100萬Tokens升級(jí)到200萬,同時(shí)支持35種語言。現(xiàn)在可以分析比以前更長的文檔、代碼庫、視頻和音頻錄音。此外,Gemini 1.5 Pro還能夠?qū)崿F(xiàn)處理更加復(fù)雜和細(xì)微的指示,包括指定產(chǎn)品級(jí)行為的指示,如角色、格式和風(fēng)格等。
更高效率、更低時(shí)延Gemini 1.5 Flash
于此同時(shí),為了滿足用戶對(duì)低延遲和低成本的需求,谷歌首先帶來輕量化模型Gemini 1.5 Flash。它基于“蒸餾”技術(shù),專為大規(guī)模服務(wù)設(shè)計(jì),速度更快、成本低至0.35美元/百萬Tokens。
Gemini 1.5 Flash依舊支持100萬和200萬Tokens兩個(gè)版本,適用于摘要、聊天應(yīng)用、圖像和視頻字幕、長文檔和表格的數(shù)據(jù)提取等需要快速處理的任務(wù)。
為了反擊OpenAI,谷歌也在今日發(fā)布了多款多模態(tài)大模型,包括圖像大模型Image 3、視頻大模型Veo等。
Gemma大模型升級(jí),開源大模型陣營再迎猛將
谷歌旗下開源大模型Gemma也在活動(dòng)中迎來了重大升級(jí)。谷歌表示,即將于6月上線的Gemma 2中引入一個(gè)全新的、擁有270億參數(shù)的模型。這是Gemma模型的下一代升級(jí),這個(gè)龐大的模型尺寸已經(jīng)由Nvidia進(jìn)行了優(yōu)化,確保它能夠在最新的GPU上順暢運(yùn)行,并且同樣在單個(gè)TPU主機(jī)和vertex AI平臺(tái)上表現(xiàn)出色。除了這一巨大的270億參數(shù)模型外,谷歌還計(jì)劃推出PaliGemma視覺語言開放模型,這將進(jìn)一步擴(kuò)展Gemma 2的功能和應(yīng)用范圍。
文生圖大模型Imagen 3
Imagen 3作為谷歌最新推出的文生圖大模型,進(jìn)一步增強(qiáng)了文本生成圖片的技術(shù)能力,與其前身Imagen 2相比,Imagen 3能夠更準(zhǔn)確地理解了它翻譯成圖像的文本提示,使得模型產(chǎn)生的“干擾性工件”和錯(cuò)誤更少,并且在生成方面更“富有創(chuàng)造性和細(xì)致”。谷歌還計(jì)劃很快將Imagen 3模型提供給使用谷歌企業(yè)生成式人工智能開發(fā)平臺(tái)Vertex AI的開發(fā)人員和企業(yè)客戶,以滿足更廣泛的用戶需求。
文生視頻大模型Veo
Veo是谷歌最新的視頻生成模型,正式對(duì)標(biāo)Sora。Veo集成了谷歌旗下大量視覺模型的特性,具備高級(jí)的自然語言和視覺語義理解能力,可以生成長度超過1分鐘,分辨率最高1080P的“高質(zhì)量”視頻,并具有多種視覺和電影風(fēng)格。
教育模型LearnLM
針對(duì)于學(xué)習(xí)領(lǐng)域,谷歌還推出了LearnLM,這是一系列全新的用于學(xué)習(xí)領(lǐng)域的生成式AI模型。此舉不僅標(biāo)志著Google在AI教育領(lǐng)域的重大突破,同時(shí)也是對(duì)OpenAI近日針對(duì)教學(xué)輔導(dǎo)場景所展示能力的有力“回應(yīng)”。
LearnLM的誕生是Google DeepMind AI研究部門與谷歌研究部門深入合作的結(jié)晶。谷歌表示,LearnLM模型旨在通過“對(duì)話式”的方式,為學(xué)生提供個(gè)性化的學(xué)習(xí)指導(dǎo),幫助他們深入理解并掌握各種主題。這不僅將提升學(xué)生的學(xué)習(xí)效率,也將為他們帶來更加豐富和有趣的學(xué)習(xí)體驗(yàn)。
大模型賦能的產(chǎn)品與場景
大模型對(duì)話產(chǎn)品Gemini Live
在I/O大會(huì)上,谷歌發(fā)布了基于Gemini的對(duì)話式體驗(yàn)產(chǎn)品——Gemini Live,它允許用戶在智能手機(jī)上與Gemini進(jìn)行“深入”的語音聊天,用來反擊OpenAI日前的大模型對(duì)話演示。用戶可以在聊天機(jī)器人說話時(shí)打斷Gemini提出澄清問題,它將實(shí)時(shí)適應(yīng)用戶的語音模式。此外,Gemini還可以通過智能手機(jī)攝像頭捕捉的照片或視頻看到并回應(yīng)用戶的周圍環(huán)境。
在某種程度上,Gemini Live 是 Google Lens 和 Google Assistant 的演變,前者是谷歌長期以來的計(jì)算機(jī)視覺平臺(tái),用于分析圖像和視頻,而后者是谷歌的人工智能驅(qū)動(dòng)的語音生成和識(shí)別虛擬助手,可在手機(jī)、智能音箱和電視上使用。
值得一題的是,Live 將專屬于 Gemini Advanced,其背后是谷歌One AI進(jìn)階計(jì)劃,價(jià)格為20美元/月。
首個(gè)AI Agent產(chǎn)品——Project Astra
作為谷歌首個(gè)AI Agent產(chǎn)品,也是推動(dòng)Gemini Live技術(shù)的創(chuàng)新部分,Project Astra旨在創(chuàng)建用于實(shí)時(shí)、多模態(tài)理解的人工智能應(yīng)用程序和智能體。