谷歌Docs,現(xiàn)在已經(jīng)可以自動生成文本摘要了!

發(fā)布時間:2022-03-25 18:42:30  |  來源:騰訊網(wǎng)  

機器之心報道

編輯:陳萍、杜偉

雖然很方便,但遺憾的是,谷歌 Docs 的自動摘要生成功能僅向企業(yè)客戶開放。希望個人用戶也能盡快用到。

對我們很多人來說,每天都需要處理大量的文件。當(dāng)收到一份新文件時,我們通常希望文件包含一個簡要的要點總結(jié),以便用戶最快的了解文件內(nèi)容。然而,編寫文檔摘要是一項具有挑戰(zhàn)性、耗時的工作。

為了解決這個問題,谷歌宣布 Google Docs 現(xiàn)在可以自動生成建議,以幫助文檔編寫者創(chuàng)建內(nèi)容摘要。這一功能是通過機器學(xué)習(xí)模型實現(xiàn)的,該模型能夠理解文本內(nèi)容,生成 1-2 句自然語言文本描述。文檔編寫者對文檔具有完全控制權(quán),他們可以全部接收模型生成的建議,或者對建議進(jìn)行必要的編輯以更好地捕獲文檔摘要,又或者完全忽略。

用戶還可以使用此功能,對文檔進(jìn)行更高層次的理解和瀏覽。雖然所有用戶都可以添加摘要,但自動生成建議目前僅適用于 Google Workspace 企業(yè)客戶(Google Workspace 是 Google 在訂閱基礎(chǔ)上提供的一套云計算生產(chǎn)力和協(xié)作軟件工具和軟件)。基于語法建議、智能撰寫和自動更正,谷歌認(rèn)為這是改善工作場所書面交流又一有價值的研究。

如下圖所示:當(dāng)文檔摘要建議可用時,左上角會出現(xiàn)一個藍(lán)色的摘要圖標(biāo)。然后,文檔編寫者可以查看、編輯或忽略建議的文檔摘要。

模型細(xì)節(jié)

過去五年,特別是 Transformer 和 Pegasus 的推出,ML 在自然語言理解 (NLU) 和自然語言生成 (NLG)方面產(chǎn)生巨大影響。

然而生成抽象文本摘需要解決長文檔語言理解和生成任務(wù)。目前比較常用的方法是將 NLU 和 NLG 結(jié)合,該方法使用序列到序列學(xué)習(xí)來訓(xùn)練 ML 模型,其中輸入是文檔詞,輸出是摘要詞。然后,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)將輸入 token 映射到輸出 token。序列到序列范式的早期應(yīng)用將 RNN 用于編碼器和解碼器。

Transformers 的引入為 RNN 提供了一個有前途的替代方案,因為 Transformers 使用自注意力來提供對長輸入和輸出依賴項的更好建模,這在文檔中至關(guān)重要。盡管如此,這些模型仍需要大量手動標(biāo)記的數(shù)據(jù)才能充分訓(xùn)練,因此,僅使用 Transformer 不足以顯著提升文檔摘要 SOTA 性能。

Pegasus 的研究將這一想法又向前推進(jìn)了一步, 該方法是在論文《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization 》中提出,通過引入一個預(yù)訓(xùn)練目標(biāo)自定義來抽象摘要。在 Pegasus 預(yù)訓(xùn)練中,也被稱為 GSP(Gap Sentence Prediction ),未標(biāo)記的新聞消息和網(wǎng)絡(luò)文檔中的完整句子在輸入中被 mask 掉,模型需要根據(jù)未被 mask 掉的句子重建它們。特別是,GSP 試圖通過不同的啟發(fā)式把對文檔至關(guān)重要的句子進(jìn)行 mask。目標(biāo)是使預(yù)訓(xùn)練盡可能接近摘要任務(wù)。Pegasus 在一組不同的摘要數(shù)據(jù)集上取得了 SOTA 結(jié)果。然而,將這一研究進(jìn)展應(yīng)用到產(chǎn)品中仍然存在許多挑戰(zhàn)。

PEGASUS 基礎(chǔ)架構(gòu)是標(biāo)準(zhǔn)的 Transformer 編碼器 - 解碼器。

將最近的研究進(jìn)展應(yīng)用到 Google Docs

數(shù)據(jù)

自監(jiān)督預(yù)訓(xùn)練生成的 ML 模型具有通用的語言理解和生成能力,但接下來的微調(diào)階段對于該模型適應(yīng)于應(yīng)用領(lǐng)域至關(guān)重要。谷歌在一個文檔語料庫中對模型早期版本進(jìn)行了微調(diào),其中手動生成的摘要與典型用例保持一致。但是,該語料庫的一些早期版本出現(xiàn)了不一致和較大變動,其原因在于它們包含了很多類型的文檔以及編寫摘要的不同方法,比如學(xué)術(shù)摘要通常篇幅長且詳細(xì),而行政摘要簡短有力。這導(dǎo)致模型很容易混淆,因為它是在類型多樣的文檔和摘要上訓(xùn)練的,導(dǎo)致很難學(xué)習(xí)彼此之間的關(guān)系。

幸運的是,谷歌開源 Pegasus 庫(用于自動生成文章摘要)中的關(guān)鍵發(fā)現(xiàn)之一是:有效的預(yù)訓(xùn)練階段在微調(diào)階段需要更少的監(jiān)督數(shù)據(jù)。一些摘要生成基準(zhǔn)只需要 1000 個 Pegasus 的微調(diào)示例即能媲美需要 10000 + 監(jiān)督示例的 Transformer 基線性能,這表明我們可以專注于模型質(zhì)量而非數(shù)量。

谷歌精心地清理和過濾了微調(diào)數(shù)據(jù),以包含更一致且更代表連貫摘要的訓(xùn)練示例。盡管訓(xùn)練數(shù)據(jù)量減少了,但生成了更高質(zhì)量的模型。正如數(shù)據(jù)集蒸餾等其他領(lǐng)域最近的工作一樣,我們可以得到以下這個重要教訓(xùn),即更小的高質(zhì)量數(shù)據(jù)集要優(yōu)于更大的高方差數(shù)據(jù)集。

服務(wù)

一旦訓(xùn)練了高質(zhì)量模型,谷歌轉(zhuǎn)向解決在生產(chǎn)中為模型提供服務(wù)時面臨的挑戰(zhàn)。Transformer 版本的編碼器 - 解碼器架構(gòu)是為摘要生成等序列到序列任務(wù)訓(xùn)練模型的主流方法,但該方法在實際應(yīng)用中提供服務(wù)時效率低且不實用。效率低主要歸咎于 Transformer 解碼器,它利用自回歸解碼來逐 token 地生成輸出摘要。當(dāng)摘要更長時,解碼過程變得很慢,這是因為解碼器在每一步都要處理之前生成的所有 token。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是更高效的解碼架構(gòu),這得益于它不像 Transformer 模型那樣對之前的 token 施加自注意力。

谷歌使用知識蒸餾(將知識從大模型遷移到更小更高效模型的過程)將 Pegasus 模型提煉為包含 Transformer 編碼器和 RNN 解碼器的混合架構(gòu)。為了提高效率,谷歌還減少了 RNN 解碼器層的數(shù)量。生成的模型在延遲和內(nèi)存占用方面有顯著改善,而質(zhì)量仍與原始模型相當(dāng)。為了進(jìn)一步改善延遲和用戶體驗,谷歌使用 TPU 為摘要生成模型服務(wù),這實現(xiàn)了顯著加速并允許單臺機器處理更多請求。

持續(xù)的挑戰(zhàn)

雖然谷歌對迄今為止取得的進(jìn)展感到興奮,但仍要繼續(xù)應(yīng)對以下一些挑戰(zhàn):

文檔覆蓋率:由于文檔之間存在顯著差異,因此在微調(diào)階段開發(fā)一組文檔很難。推理階段也存在同樣的挑戰(zhàn)。此外,谷歌用戶創(chuàng)建的一些文檔(如會議記錄、食譜、課程計劃和簡歷)不適合總結(jié)或難以總結(jié)。

評估:抽象摘要需要捕捉文檔的本質(zhì),保持流暢且語法正確。一個特定的文檔可能存在許多可被認(rèn)為正確的摘要,不同的用戶也可能喜歡不同的摘要。這使得僅使用自動指標(biāo)評估摘要變得困難,用戶反饋和使用情況統(tǒng)計對于谷歌理解和不斷提高模型質(zhì)量至關(guān)重要。

長文檔:模型最難生成長文檔的摘要,因為它更難捕獲所有要點并抽象(總結(jié))在一個摘要中。此外,長文檔的訓(xùn)練和服務(wù)期間內(nèi)存占用顯著增加。但是,長文檔對于模型自動生成摘要這一任務(wù)而言可能最有用,因為它可以幫助文檔編寫者在這項繁瑣的任務(wù)中搶占先機。谷歌希望可以應(yīng)用最新的 ML 進(jìn)展來更好地應(yīng)對這一挑戰(zhàn)。

https://ai.googleblog.com/2022/03/auto-generated-summaries-in-google-docs.html

關(guān)鍵詞: 谷歌Docs 現(xiàn)在已經(jīng)可以自動生成文本摘要了

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com