在人工智能領(lǐng)域,谷歌再度邁出了令人矚目的一步,推出了三款基于Gemma架構(gòu)的創(chuàng)新模型:MedGemma、SignGemma和DolphinGemma。這些模型分別針對(duì)醫(yī)療、手語翻譯以及海豚語言研究,展現(xiàn)了AI在多元化應(yīng)用場(chǎng)景下的強(qiáng)大潛力。
首先,MedGemma是谷歌為醫(yī)療行業(yè)量身打造的AI模型,分為4B多模態(tài)版本和27B文字推理版本。4B版本能夠處理圖像與文本的組合任務(wù),在醫(yī)療影像診斷、報(bào)告生成等方面表現(xiàn)出色,適用于胸部X光片、皮膚科圖像、眼科圖像和病理切片等數(shù)據(jù)的處理。而27B版本則專注于文本處理,擁有強(qiáng)大的推理能力,適用于病歷分析、醫(yī)療問答等復(fù)雜場(chǎng)景。這兩款模型均能在單塊GPU上高效運(yùn)行,為醫(yī)療開發(fā)者提供了靈活多樣的選擇。
谷歌通過Health AI Developer Foundations計(jì)劃發(fā)布了MedGemma,旨在加速醫(yī)療應(yīng)用的開發(fā)進(jìn)程。未來,開發(fā)者將能夠利用這些模型構(gòu)建更加智能的醫(yī)療工具,推動(dòng)精準(zhǔn)醫(yī)療的發(fā)展。
其次,SignGemma是一款專為手語翻譯設(shè)計(jì)的AI模型,重點(diǎn)支持美國(guó)手語(ASL)到英語的翻譯。這款模型能夠?qū)⑹终Z動(dòng)作轉(zhuǎn)化為口語文本,為聾啞患者和開發(fā)者提供了一種全新的交互方式。SignGemma在手語理解方面表現(xiàn)出色,被譽(yù)為迄今為止最強(qiáng)大的手語理解模型。谷歌計(jì)劃在未來進(jìn)一步擴(kuò)展SignGemma的多語言支持,助力全球聾啞社區(qū)實(shí)現(xiàn)無障礙溝通。
基于SignGemma,開發(fā)者可以開發(fā)出實(shí)時(shí)手語翻譯工具、教育平臺(tái)等創(chuàng)新應(yīng)用,為聾啞群體帶來更多便利。這一模型的推出,無疑將推動(dòng)手語翻譯技術(shù)的進(jìn)一步發(fā)展。
最后,DolphinGemma是谷歌與Wild Dolphin Project(WDP)和喬治亞理工學(xué)院合作開發(fā)的創(chuàng)新模型,旨在分析和生成海豚的復(fù)雜聲音。這款模型基于40年積累的北大西洋斑點(diǎn)海豚聲學(xué)數(shù)據(jù),能夠識(shí)別特定聲音模式,并預(yù)測(cè)聲音序列。DolphinGemma已集成到WDP的CHAT系統(tǒng)中,通過智能手機(jī)界面實(shí)現(xiàn)實(shí)時(shí)海豚聲音分析。
研究人員甚至嘗試通過合成哨聲與海豚進(jìn)行簡(jiǎn)單交互,這一成果為跨物種溝通的研究提供了新的思路。谷歌計(jì)劃于今年夏季將DolphinGemma開源,允許更多研究者將其應(yīng)用于其他鯨類物種,加速跨物種溝通的研究進(jìn)程。
這三款模型均基于Gemma架構(gòu),兼顧高效性和適應(yīng)性。然而,Gemma系列的非標(biāo)準(zhǔn)許可條款也引發(fā)了一些開發(fā)者對(duì)商業(yè)應(yīng)用的擔(dān)憂。未來,谷歌需要進(jìn)一步優(yōu)化許可政策,以提升模型的商業(yè)化潛力。