【資料圖】
日前谷歌方面宣布,谷歌翻譯網(wǎng)頁版已支持直接翻譯圖片上的文字內(nèi)容,并且翻譯后的文字可直接復(fù)制,或是保存翻譯后的圖片。據(jù)悉,這一功能的實現(xiàn)得益于其使用了AR Translate(AR翻譯)技術(shù),目前已支持113種源語言與133種目標(biāo)語言,同時Google Lens同樣也是借助這項技術(shù)服務(wù)用戶。
經(jīng)驗證發(fā)現(xiàn),更新后的谷歌翻譯網(wǎng)頁中新增了圖片翻譯選項,用戶選擇圖片翻譯后、可上傳圖片按需選擇語言進(jìn)行翻譯。但翻譯后的圖片,則有可能會出現(xiàn)版面及字體大小的調(diào)整。
據(jù)了解,2017年5月發(fā)布的Google Lens目前同樣也使用了AR Translate技術(shù),這是一款基于圖像識別與OCR的人工智能應(yīng)用,能夠借助攝像頭識別物體后提供搜索服務(wù),功能也已從最初的物體識別更迭到可貨幣化搜索。此前在今年2月,谷歌方面在一場人工智能主題的活動中透露,Google Lens每月的搜索量已達(dá)100億次。
此外,近日谷歌相關(guān)團(tuán)隊在還聯(lián)合柏林工業(yè)大學(xué)推出了一款視覺語言模型PaLM-E,該模型通過PaLM-540B語言模型與Vit-22B視覺Transformer模型結(jié)合后的最終參數(shù)高達(dá)5620億,不僅能進(jìn)行簡單的問答對話,還能指導(dǎo)機(jī)器人完成相對復(fù)雜的指令。同時谷歌方面還表示,其公布的通用語音模型USM也已實現(xiàn)升級,目前能檢測和翻譯包含英語、漢語在內(nèi)的多種語言。在谷歌官方博客中還透露,與OpenAI的語音模型Whisper相比,USM的數(shù)據(jù)訓(xùn)練時長更短、錯誤率更低。
【本文圖片來自網(wǎng)絡(luò)】
關(guān)鍵詞: