“早春江上雨初晴,楊柳絲絲夾岸鶯。畫(huà)舫煙波雙槳急,小橋風(fēng)浪一帆輕?!?/span>
平仄規矩、清新別致,這首不久前引發(fā)熱議的小詩(shī)讀起來(lái)是不是朗朗上口?如果告訴你,它的作者是個(gè)機器人,你會(huì )不會(huì )大吃一驚?事實(shí)上,對于人工智能來(lái)說(shuō),吟詩(shī)作對只是牛刀小試
如今,隨著(zhù)人工智能技術(shù)日新月異,各式各樣的智能機器人早已各顯其通?!皬姶蟮娜斯ぶ悄茚绕?,要么是人類(lèi)歷史上最好的事,要么是最糟的。我們應該竭盡所能,確保它的未來(lái)發(fā)展對我們和環(huán)境有利?!彼沟俜摇せ艚鹕叭缡蔷?。當創(chuàng )作這一被視為“人類(lèi)精神文化的堡壘”被逐漸攻破,你我手中的飯碗是不是已岌岌可危?
寫(xiě)稿作詩(shī)——信手拈來(lái)
人工智能寫(xiě)稿機器人不但任勞任怨、迅如閃電,其原創(chuàng )詩(shī)集更圈粉無(wú)數
白皙的臉上架副眼鏡,身材頎長(cháng),北京大學(xué)計算機科學(xué)技術(shù)研究所研究員萬(wàn)小軍投身人工智能領(lǐng)域已有十幾年。早年專(zhuān)注自然語(yǔ)言處理技術(shù)的他,2016年8月份曾與今日頭條實(shí)驗室聯(lián)合研發(fā)推出國內第一款綜合利用大數據分析、自然語(yǔ)言處理與機器學(xué)習技術(shù)的人工智能寫(xiě)稿機器人——“張小明”。
“北京時(shí)間8月10日00:00,現世界排名第2的丁寧在奧運會(huì )乒乓球女子單打四分之一決賽中勝出,確保進(jìn)入下一輪。丁寧本輪的對手是現世界排名第7的韓英,實(shí)力不俗。但經(jīng)過(guò)4場(chǎng)大戰的激烈較量,最終,丁寧還是以總比分4:0戰勝對手,笑到了最后,為中國延續了在這個(gè)系列賽事中最終奪冠的機會(huì )?!?/span>
里約奧運會(huì )期間,“張小明”正式上崗,成為眾多記者中的一員。16天撰寫(xiě)450多篇體育新聞,并以與直播同步的速度發(fā)布,“張小明”最終不負眾望,一戰成名。
任勞任怨、迅如閃電,這是“張小明”們最大的賣(mài)點(diǎn):2017年四川九寨溝地震時(shí),某機器人僅用時(shí)25秒就寫(xiě)出了速報,通過(guò)國家地震臺官方微信全球首發(fā);第一財經(jīng)的“DT稿王”有著(zhù)1900篇/天的產(chǎn)出速度,這相當于100位資深證券編輯1個(gè)小時(shí)的產(chǎn)量;2017年,面向民生領(lǐng)域的寫(xiě)稿機器人“小南”驚艷亮相,從數據采集分析到文稿結構規劃,再到遣詞造句,僅用時(shí)不到1秒就完成了文稿……
快,不是創(chuàng )作型機器人唯一的優(yōu)勢。
“看那星,閃爍的幾顆星/西山上的太陽(yáng)/青蛙兒正在遠遠的淺水/她嫁了人間許多的顏色”。自出生之日起,“小冰”匿名投稿的詩(shī)篇多次被《北京晨報》《長(cháng)江詩(shī)歌》等刊發(fā)。她的第一部原創(chuàng )詩(shī)集《陽(yáng)光失了玻璃窗》,更是圈粉無(wú)數。
胡適、李金發(fā)、林徽因、徐志摩、聞一多、余光中、北島、顧城、舒婷、海子、汪國真……擅長(cháng)詩(shī)歌的“小冰”,師承1920年以來(lái)的519位中國現代詩(shī)人。歷經(jīng)6000分鐘、1萬(wàn)次的迭代學(xué)習,如今“小冰”已形成了一套屬于自己的獨特文風(fēng)和行文技巧。
“如果說(shuō),小冰以前的詩(shī)還只是小學(xué)生水平,那么現在算得上是大一新生的水平了?!痹?shī)人周瑟瑟曾如是點(diǎn)評。
功夫如何練就——深度學(xué)習
創(chuàng )作型機器人的核心技術(shù)是自然語(yǔ)言理解與生成,這主要由深度學(xué)習技術(shù)來(lái)實(shí)現
“你那邊天氣怎樣——廣州,今日:多云17℃~26℃;明日:多云18℃~27℃。深圳,今日:多云18℃~26℃;明日:多云19℃~27℃?!眻绦型甏哼\任務(wù)后,“小南”又添了一項技能——播報天氣。
不斷成長(cháng)的“小南”只是近年來(lái)創(chuàng )作型機器人迅速崛起的一個(gè)剪影。這些“大?!眰兙烤故窃鯓訜挸傻??萬(wàn)小軍告訴經(jīng)濟日報記者,無(wú)論是寫(xiě)詩(shī)機器人還是寫(xiě)稿機器人,其核心技術(shù)都是自然語(yǔ)言理解與生成,而自然語(yǔ)言的處理是目前人工智能領(lǐng)域難度最大的課題之一。
“寫(xiě)稿機器人實(shí)際上是一款利用編程語(yǔ)言實(shí)現的智能寫(xiě)稿軟件?!比f(wàn)小軍說(shuō),從現有寫(xiě)稿機器人來(lái)看,它們多數專(zhuān)注于財經(jīng)、體育等領(lǐng)域,因為這兩個(gè)領(lǐng)域具有一定規則和數據可循,實(shí)現起來(lái)相對容易。目前機器人寫(xiě)稿主要有兩種方式:原創(chuàng )和二次創(chuàng )作。原創(chuàng ),即借助結構化的數據來(lái)生成稿件,比如利用數據庫可以直接寫(xiě)成天氣預報、財報和年報的稿件。二次創(chuàng )作,即對已有的相關(guān)報道進(jìn)行拼湊,進(jìn)而改寫(xiě)成為新的稿件。
不過(guò),兩者所依賴(lài)的技術(shù)并不完全一致。原創(chuàng )采用的是自然語(yǔ)言生成技術(shù),是從結構化數據/意義表達生成自然語(yǔ)言語(yǔ)句。二次創(chuàng )作采用的是自動(dòng)摘要技術(shù),從已有的文字素材中進(jìn)行摘要,從而生成一個(gè)新的稿件。例如,一個(gè)體育簡(jiǎn)訊的生成需要先從網(wǎng)上抓取關(guān)于體育賽事的一些基本數據,據此做一些數據分析,就可以生成一個(gè)比較簡(jiǎn)單的體育賽事報道,這就屬于原創(chuàng )。
據業(yè)內人士吳俁的說(shuō)法,所謂自動(dòng)撰稿機器人,廣義的說(shuō)也可稱(chēng)為“文本生成”。它的寫(xiě)稿方式之一是抽句子——找一堆句子,拼成一篇文章。寫(xiě)稿機器人“張小明”就是利用這項技術(shù)實(shí)現基于體育直播文字的體育長(cháng)文自動(dòng)生成,從而走在技術(shù)前列。
寫(xiě)詩(shī)機器人,也不例外?!澳壳皩?xiě)詩(shī)機器人主要基于深度學(xué)習技術(shù),對它來(lái)說(shuō),學(xué)習樣本越大越有規律可循,學(xué)起來(lái)效果也更好?!痹谌f(wàn)小軍看來(lái),機器人寫(xiě)詩(shī)其實(shí)是個(gè)“編碼與解碼”過(guò)程,編碼過(guò)程對用戶(hù)輸入信息進(jìn)行語(yǔ)義編碼,解碼過(guò)程則逐詞生成得到每行詩(shī)。研究人員先搜集成千上萬(wàn)首詩(shī),利用詩(shī)的標題或關(guān)鍵詞作為輸入,訓練深度學(xué)習模型生成相對應的詩(shī)句。充分學(xué)習訓練后,機器人會(huì )摸索出一套作詩(shī)的規律,按照主題需要解碼輸出第一句詩(shī),然后把這句詩(shī)與輸入的關(guān)鍵詞合并作為新的輸入,就可解碼得到第二句,如此循環(huán)便可得到一首完整的詩(shī)。
“人工智能特別擅長(cháng)寫(xiě)這種有規律的、被條條框框約束的內容,在一些簡(jiǎn)單重復性的腦力勞動(dòng)中,它具有一些先天優(yōu)勢?!比f(wàn)小軍稱(chēng)。
能否取代人類(lèi)——分工協(xié)作
創(chuàng )作型人工智能的優(yōu)勢是執行簡(jiǎn)單、重復性的創(chuàng )作輸出,而人類(lèi)可以聚焦更富創(chuàng )造性的智力勞動(dòng)
日本研發(fā)的人工智能創(chuàng )作了科幻小說(shuō)《電腦寫(xiě)小說(shuō)的那一天》,不僅騙過(guò)了所有人類(lèi)評審,還成功入圍日本微小說(shuō)文學(xué)獎;谷歌人工智能還可進(jìn)行繪畫(huà)創(chuàng )作,有畫(huà)作被拍出了8000美元高價(jià)……當智能機器人大行其道,人類(lèi)會(huì )不會(huì )真如霍金所言“大難來(lái)臨”?
“讓機器具有思維與情感、學(xué)會(huì )推理和歸納,短時(shí)間還做不到?!比f(wàn)小軍以“小南”舉例,在教小南寫(xiě)稿過(guò)程中,遇到的一個(gè)難點(diǎn)就是可供學(xué)習的樣本不夠豐富,訓練語(yǔ)料較為缺乏。而且,因為缺乏情感表達和思維能力,它寫(xiě)出的作品大多平鋪直敘,不夠生動(dòng)。如果僅看幾篇沒(méi)有太大問(wèn)題,看多了難免會(huì )感覺(jué)單調、枯燥。
寫(xiě)詩(shī)機器人同樣存在類(lèi)似的問(wèn)題。萬(wàn)小軍說(shuō),得益于近年來(lái)深度學(xué)習技術(shù)的進(jìn)步,機器人寫(xiě)詩(shī)水平有了質(zhì)的飛躍——由于古詩(shī)中留有大量寫(xiě)景詩(shī),它們尤其擅長(cháng)寫(xiě)景抒情。這些詩(shī)普通人猛一看“嗯,不錯,挺美”,但若讓對古詩(shī)頗有研究的專(zhuān)家審視,便免不了一番品評。另外,它或許可以模仿得有模有樣,但若交給它一個(gè)從未遇過(guò)的主題,就很難勝任了。
不僅行文相對單一,“小冰”“小南”們即便寫(xiě)出了美文,也不知道自己寫(xiě)的是啥,更談不上陶醉其中自我欣賞?!坝浾邔?xiě)稿時(shí)很清楚他在寫(xiě)什么,知道自己要表達的語(yǔ)義信息?!比f(wàn)小軍說(shuō),機器人不然,雖然它把每一個(gè)句子都寫(xiě)出來(lái)了,但內容是什么,它不知道也無(wú)法理解,這是人和機器最大的不同,對寫(xiě)詩(shī)機器人來(lái)說(shuō)同樣適用。
關(guān)于這點(diǎn),知乎專(zhuān)欄作者蕭瑟曾在《當AI邂逅藝術(shù):機器寫(xiě)詩(shī)綜述》一文中有過(guò)這樣的描述:機器詩(shī)歌生成的工作,起始于20世紀70年代。但在計算機誕生之前,就有好事者弄了個(gè)高頻詩(shī)歌詞語(yǔ)轉盤(pán),轉到哪個(gè)詞就記錄下來(lái),然后連起來(lái)形成一首“詩(shī)”。這種詩(shī)自然會(huì )出現類(lèi)似“蘋(píng)果吃姑娘,殘紅殺馬特”這樣邏輯不通、不倫不類(lèi)的句子。當然,也可能偶然搞出佳句。
雖然前路依舊漫漫,但隨著(zhù)深度學(xué)習技術(shù)的發(fā)展和數據積累,人工智能的春天已漸行漸近?!熬蛯?xiě)稿機器人而言,目前它僅能做到將一個(gè)基本的新聞事實(shí)描述清楚;一些深度、調查類(lèi)報道還必須依賴(lài)記者完成。創(chuàng )作型人工智能的優(yōu)勢是執行一些簡(jiǎn)單、重復性的創(chuàng )作輸出,人類(lèi)可以集中精力聚焦一些更富創(chuàng )造性的智力勞動(dòng),構建一種和諧的分工協(xié)作關(guān)系?!比f(wàn)小軍說(shuō)。
摘自《經(jīng)濟日報》