昨天,谷歌發(fā)布“Talk to Books”(撩書??)和一個(gè)名為Semantris的游戲。這兩項(xiàng)都是基于自然語言文本理解,用戶能夠憑語義而非關(guān)鍵詞來實(shí)現(xiàn)搜索功能。這些創(chuàng)新來源于“在向量空間中表示語言”想法的延伸,以及詞向量模型的發(fā)展。
未來的搜索,可能不需要輸入關(guān)鍵詞,直接表達(dá)想法就好。
谷歌昨晚放出大招:上線Semantic Experiences(語義體驗(yàn))網(wǎng)站,網(wǎng)站有兩項(xiàng)特殊功能,一個(gè)是“Talk to Books”(撩書??),一個(gè)是名為Semantris的語義聯(lián)想游戲。
這兩個(gè)大招都是基于自然語言文本理解,用戶能夠憑語義而非關(guān)鍵詞來實(shí)現(xiàn)搜索功能。
過去幾年里,自然語言理解(Natural language understanding)有了很大發(fā)展,部分原因是詞向量(word vectors)的發(fā)展使得算法能夠根據(jù)實(shí)際語言使用的例子來理解單詞之間的關(guān)系。這些向量模型根據(jù)概念和語言之間的等價(jià)性、相似性或相關(guān)性將語義上相似的短語映射到相近的點(diǎn)。去年,谷歌已經(jīng)使用語言的分層向量模型(hierarchical vector models)改進(jìn)了Gmail的智能回復(fù)。
當(dāng)“Talk to Books”時(shí),只需要輸入模糊的詞匯,算法模型會(huì)在超過10萬本書中搜索對(duì)應(yīng)的每一個(gè)句子,以查找最有可能在對(duì)話中匹配的書籍,擺脫了以往通過書名或作者的搜索方式。
“Semantris”是一個(gè)單詞語義聯(lián)想游戲,當(dāng)輸入單詞時(shí),游戲會(huì)對(duì)屏幕中所有單詞進(jìn)行評(píng)分,簡(jiǎn)單有趣。
這篇博客由著名的未來學(xué)家、谷歌研究的工程總監(jiān)Ray Kurzweil和產(chǎn)品經(jīng)理Rachel Bernstein發(fā)布,博客地址:
https://research.googleblog.com/2018/04/introducing-semantic-experiences-with.html?m=1
游戲試玩地址:
https://research.google.com/semantris/
谷歌還公開了論文“Universal Sentence Encoder”,論文中詳細(xì)描述了這些示例所使用的模型。此外,谷歌Semantic Experiences網(wǎng)站還在TensorFlow平臺(tái)上提供了一個(gè)預(yù)先訓(xùn)練好的模型供其他研究人員進(jìn)行實(shí)驗(yàn)。
不用關(guān)鍵詞,輕松去“撩書”
“Talk to Books”可以讓用戶與用機(jī)器學(xué)習(xí)訓(xùn)練的算法進(jìn)行對(duì)話,該算法可以從人寫的文本中找到相關(guān)段落的答案。
“撩書”的方法很簡(jiǎn)單:你只要輸入一句話,這句話可以是一個(gè)陳述句或一個(gè)疑問句,然后而“Talk to Books”會(huì)在書中找到相應(yīng)的句子,完全不依賴于關(guān)鍵字匹配。

比如,問“為什么天空是藍(lán)色的?”你會(huì)得到很多不同的答案,這些答案都是在清晰的文本中顯示出來的,并且顯示來自于關(guān)于這個(gè)主題的書籍。
這種做法改變了以往使用標(biāo)準(zhǔn)的谷歌關(guān)鍵詞搜索的方式,并且也不需要必須點(diǎn)擊鏈接并解析文章或網(wǎng)頁。

此外,“Talk to Books”的Web界面非常整潔、完美(更沒有競(jìng)價(jià)排名的醫(yī)療小廣告)。
Kurzweil和Berstein說,這個(gè)模型接受了10億次類似的訓(xùn)練,比如對(duì)句子進(jìn)行分析,并學(xué)會(huì)識(shí)別出好的反應(yīng)可能是什么樣的?!耙坏┠銌柫四愕膯栴}(或者做了一個(gè)陳述),這些工具就會(huì)在超過10萬本書中搜索所有的句子,找出那些根據(jù)句子層面的語義含義對(duì)你的輸入做出反應(yīng)的句子。你輸入的和你得到的結(jié)果之間的關(guān)系沒有預(yù)先定義的規(guī)則。
不過,“Talk to Books”并不是最完美的。TheVerge報(bào)道稱,這個(gè)工具更適合回答原始的事實(shí)問題,而在處理復(fù)雜的地緣政治問題或現(xiàn)代文化和歷史重要性的話題時(shí)表現(xiàn)不佳。
但是作為一個(gè)簡(jiǎn)單的Web工具,谷歌表示,這個(gè)技術(shù)能幫助改進(jìn)像Gmail智能回復(fù)這樣的產(chǎn)品,而且與書籍對(duì)話是一種以自然語義的方式搜索Web的有趣方式。更重要的是,它讓我們意識(shí)到,當(dāng)人工智能真正成熟到可以處理幾乎所有我們拋出的問題時(shí),未來的界面會(huì)是什么樣子。
Semantris:開腦洞、發(fā)散思維的小游戲
跟“撩書”一起推出的是一款叫做Semantris的游戲,它主要測(cè)試用戶單詞聯(lián)想能力。

舉個(gè)例子,如果你把“床”(Bed)這個(gè)單詞放在一個(gè)10個(gè)單詞的最上面,你可能會(huì)把“睡眠”(Sleep)作為一種反應(yīng)。Semantris將對(duì)這10個(gè)單詞進(jìn)行排序,并根據(jù)它認(rèn)為床與睡眠之間的語義關(guān)系與列表中的其他單詞之間的關(guān)系進(jìn)行比較,最后還可以打分。

應(yīng)該指出的是,很多谷歌實(shí)驗(yàn)也是公司收集用戶數(shù)據(jù)的方法,通過給用戶提供豐富的關(guān)于文字關(guān)系的信息,有助于信息技術(shù)的發(fā)展。這似乎是Semantris的案例,但無論如何,游戲是測(cè)試你自己能力的一種有趣的方式,看看軟件如何判斷單詞之間的聯(lián)系。

此外,你也可以玩一個(gè)類似tetris的游戲,它可以讓你輸入文字來清除屏幕上的文字塊,根據(jù)你自己的假設(shè),軟件可以在彩色方塊上的文字和你輸入的答案之間的文字之間畫出什么關(guān)聯(lián)。
建模方法
谷歌使用的方法是“在向量空間中表示語言”這一想法的延伸,方法是為更大的語言塊(如完整句子和小段落)創(chuàng)建向量。由于語言是由概念層次組成的,我們使用一個(gè)模塊層級(jí)結(jié)構(gòu)創(chuàng)建向量,每個(gè)模塊考慮與不同時(shí)間尺度的序列對(duì)應(yīng)的特征。如果以正確的方式訓(xùn)練,然后提出正確的“問題”,那么就可以用向量空間語言模型來表示相關(guān)性、同義詞、反義詞、部分整體關(guān)系、同形異義詞以及其他許多類型的關(guān)系。谷歌在論文“Efficient Natural Language Response for Smart Reply”中描述了這種方法。
-
谷歌
+關(guān)注
關(guān)注
27文章
6241瀏覽量
110011 -
關(guān)鍵詞
+關(guān)注
關(guān)注
0文章
16瀏覽量
10575 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13881
原文標(biāo)題:谷歌發(fā)大招:搜索全面AI化,不用關(guān)鍵詞就能輕松“撩書”
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
探索AC自動(dòng)機(jī):多關(guān)鍵詞搜索的原理與應(yīng)用案例
[討論]提高網(wǎng)站關(guān)鍵詞排名的28個(gè)SEO小技巧
亞馬遜代運(yùn)營 amazon Search term 關(guān)鍵詞填寫的“神技”
關(guān)鍵詞優(yōu)化有哪些實(shí)用的方法
#2023,你的 FPGA 年度關(guān)鍵詞是什么? #
2010年10大流行搜索關(guān)鍵詞 Facebook居首
基于關(guān)鍵詞的最優(yōu)路徑查詢算法
基于盲GDH簽名的無記憶模糊關(guān)鍵詞搜索
對(duì)加密電子醫(yī)療記錄的關(guān)鍵詞的搜索
Chrome新增一項(xiàng)功能 部分標(biāo)簽頁可顯示該頁面關(guān)鍵詞
融合BERT詞向量與TextRank的關(guān)鍵詞抽取方法
一種基于詞和文檔嵌入的關(guān)鍵詞抽取方法
一種基于位置信息的關(guān)鍵詞自動(dòng)化提取算法
ADI年度關(guān)鍵詞曝光,這些你肯定搜索過!
搜索關(guān)鍵詞獲取商品詳情接口的設(shè)計(jì)與實(shí)現(xiàn)

一種改變標(biāo)準(zhǔn)的谷歌關(guān)鍵詞搜索的新方式
評(píng)論