在全球貿(mào)易加速發(fā)展的今天,無障礙交流是成交的第一步?;贏I技術(shù)的發(fā)展,谷歌等巨頭推出了相關(guān)翻譯耳機產(chǎn)品,眾多創(chuàng)業(yè)公司也在這個新興賽道角逐。
但尷尬的是,AI翻譯耳機在相對安靜的辦公室等場景可能是“神器”,只是一旦置身于真正的嘈雜環(huán)境,它的表現(xiàn)就會立刻跌回“骨感現(xiàn)實”,各種技術(shù)短板和設(shè)計缺陷會被無限放大,讓人又愛又恨。
這幾天正值德國柏林國際消費電子展(IFA)期間,吸引了超過100個國家的展商參展和觀眾,他們在嘈雜的展館里說著不同的語言,AI翻譯耳機就成了許多展商和觀眾之間溝通的紐帶。但從實際的體驗來看,多數(shù)的產(chǎn)品都不合格。
“光看到對方嘴巴動,但翻譯耳機里什么聲音都沒有”,“我明明是在聽工作人員介紹電視產(chǎn)品,不知怎么耳機里突然翻譯起相鄰展臺大喇叭廣播的產(chǎn)品展示節(jié)目預(yù)告”。
對話節(jié)奏錯亂、聊天效率低,可能還不如自己的散裝英語更容易交流理解,估計是很多用戶都遇到過的糟心事。難道就沒有一款能同頻交流的翻譯產(chǎn)品嗎?答案當然是有。
圖片來源:新聞聯(lián)播
此前曾登上過《新聞聯(lián)播》的深圳創(chuàng)業(yè)公司——時空壺,也來到了IFA的舞臺,并發(fā)布全新一代產(chǎn)品W4 AI翻譯耳機,骨聲紋新技術(shù)的應(yīng)用,加上內(nèi)置的Babel OS,帶來無感且精準的面對面翻譯體驗。
“九年來,我們一直是站在解決問題的角度去專注做好跨語言交流這件事”,時空壺創(chuàng)始人田力對作者說道,“現(xiàn)在的產(chǎn)品體驗可能只有70多分,我們下一步就是把它做到80多分、90分,就像L4級別的自動駕駛一樣,解放更多人對語言的恐懼,屆時會創(chuàng)造出巨大的商業(yè)價值和社會價值?!?/p>
跨語言交流,面對面翻譯為何“力不從心”
71年時間,從最早的“機翻”到現(xiàn)在的AI翻譯,我們看到了翻譯產(chǎn)品的技術(shù)進步,現(xiàn)如今各種AI翻譯耳機產(chǎn)品也層出不窮,價格從百元到千元不等。AI大模型的加持,更是讓幾乎每一款產(chǎn)品都宣稱能夠做到無感翻譯。但是,現(xiàn)實往往會讓很多滿懷期待的用戶失望。
不僅僅是上文提到的IFA這種上萬人同在的嘈雜展會,工廠、火車站等復(fù)雜環(huán)境下都是如此,多數(shù)用戶的期待都與實際體驗成反比,要么延遲,要么收音不準,要么翻譯地很生硬,導(dǎo)致在跨語言交流時“社死”,還有可能錯過商務(wù)大單。
田力透露,當時也正是因為這樣的原因,才決定創(chuàng)業(yè)專注去解決跨語言交流問題。“我爸媽當時去歐洲旅游,也遇到了很多的語言障礙。當時單純覺得有這么多的翻譯軟件,但是不管是出國旅行,還是跨國會議,甚至你想談戀愛,跨語言交流都如此地困難,所以就決定來嘗試解決這個問題?!?/p>
其實,AI時代,機器翻譯已經(jīng)提升了很多,但要做到母語感的交流,還有較長的一段路要走,關(guān)鍵很多人還都跑錯了方向。要做到面對面每一句都到位地翻譯,首先要解決的不是翻得準的問題,而是聽得清的難題。
眾所周知,一般在面對面交流時,外部的多個聲源可能都會被收取,這種干擾導(dǎo)致后續(xù)的翻譯不準確。田力直言,“比方說咱們倆在這說話的時候,別人嘰里呱啦其實對我們是沒有干擾,你可以當耳邊風(fēng),但機器沒辦法,機器一大堆聲音全錄進來的時候,它就可能亂七八糟的識別和翻譯了?!?/p>
目前,市面上雖然也有翻譯耳機具備降噪功能,但更多的是ENC降噪,降低的是環(huán)境雜音,無法剔除掉旁邊人說話的聲音,就算后續(xù)翻譯得再準,也都是徒勞。要做到真正地面對面翻譯,就必須要能準確收取真正需要的聲音。
聽清之后,才是對準確度和速度的考驗,這同樣是一塊難啃的硬骨頭?,F(xiàn)在,AI翻譯基本上是已經(jīng)能識別世界上所有的主流語言,但區(qū)別于人工同傳,機翻的結(jié)果往往很生硬,并不是用母語的交流方式去翻譯,有時還會鬧笑話。比如我們在點菜時,通常會指著菜單說“我要點這個”,一些設(shè)備直接將“點”直譯為“click”,而不是“order”,更別說其他復(fù)雜的中文梗了。
田力指出,“語言是人能說出來的大部分智慧的承載體。NLP(自然語言處理)被譽為人工智能的皇冠明珠,如果只是看圖識物,或者在圖里邊取出一個字,這個很準。但是你的說話習(xí)慣、語速、口音、很多的個性化東西揉在一起還能100%準確,這反而是非常難?!?/p>
將L3同傳變成現(xiàn)實,被一家中國公司先做到了
用戶購買翻譯產(chǎn)品,不是為了看起來酷炫,而是為了解決場景化使用問題。在業(yè)界的分級體系中,AI翻譯被分為L1-L5五個級別,L1就是文本翻譯,L2是語音的交替翻譯,雙方一來一回,這兩個級別的產(chǎn)品已經(jīng)較為普遍。L3則是語音同聲傳譯,就是解決上文提到的在嘈雜環(huán)境下面對面翻譯的問題,也是全行業(yè)一直在突破的方向。
我們在IFA上發(fā)現(xiàn),其實L3級別的技術(shù),已經(jīng)被時空壺率先突破了,解決了聽得清和翻得準的問題,給出的樣本答案更是登上了《新聞聯(lián)播》。
為了解決降噪的問題,時空壺換了個思路,不是“消音”,而是“識人”。從《新聞聯(lián)播》的報道中我們得知,時空壺工作人員研發(fā)了一套技術(shù)算法,利用矢量降噪技術(shù),收取應(yīng)該收取的聲音,并奔走在深圳的大街小巷、社區(qū)商圈,為的就是收集嘈雜環(huán)境下的各項數(shù)據(jù),最終找到消除噪聲、雜音的辦法。
田力表示,降噪也有限制,需要找到一個平衡,在降噪過程中要盡可能保證音質(zhì)是非常原汁原味的,這個事情就需要我們工程人員和算法人員大量地去調(diào)、去訓(xùn)練一個模型。
據(jù)悉,時空壺矢量降噪技術(shù)發(fā)明于2020年,并在2021年首次搭載在W3上,去年發(fā)布的W4 PRO進一步升級為三麥VNC,使得抗干擾能力進一步提升。在《新聞聯(lián)播》的畫面中可以看到,即便在地鐵這樣嘈雜的環(huán)境下,佩戴者的聲音依然可以被準確識別和傳輸。
而剛剛發(fā)布的W4更是采用了全新技術(shù)架構(gòu),在矢量降噪的基礎(chǔ)上增加了骨聲紋技術(shù),通過人們說話時,音頻震動帶動的耳骨震動實現(xiàn)聲音的收取識別,持續(xù)降低環(huán)境噪音。雙方都能較快地、實時地聽到對方的翻譯結(jié)果,并且可以隨意插話、同時說話,就像是隨身攜帶一個專屬翻譯一樣。
聽得清后,時空壺還在翻得準、翻得快上更進一步。為了做到母語感的交流,時空壺內(nèi)置了AI大模型,能自動關(guān)聯(lián)上下文語境,判斷歧義詞的含義?!缎侣劼?lián)播》中能看到,為了將翻譯延遲時間盡可能縮短,時空壺還經(jīng)常請來一些頂尖譯員交流。
時空壺W4升級搭載了全新升級的Babel OS 2.0翻譯系統(tǒng),支持42種語言和95種口音,13組語言對離線翻譯,0.2秒響應(yīng)速度,3秒翻譯延遲,像人一樣先理解對話的語境,再用最自然、貼切的方式翻譯表達,平均準確率提升至98%,做到真正的面對面自然溝通。
截至目前,時空壺已經(jīng)推出多款L3級別的AI翻譯產(chǎn)品,用戶可以根據(jù)自己的需求去選擇,在展會現(xiàn)場這樣的嘈雜場景中,跨語言交流再也不是障礙,輕松實現(xiàn)母語感交流。
以實用主義重鑄巴別塔
優(yōu)秀的公司不是技術(shù)上的自嗨,而是能真正解決用戶的場景難題。在田力看來,每一次技術(shù)嘗試和產(chǎn)品突破,都會理性去判斷這件事到底對于用戶來說有沒有價值。
時空壺在跨語言交流上的驚艷,是其過去9年創(chuàng)業(yè)史的縮影,自創(chuàng)立至今,每一代產(chǎn)品都在聚焦實際的場景,為行業(yè)帶來新的變化。而被《新聞聯(lián)播》稱之為“外貿(mào)小公司”的這家企業(yè),目前產(chǎn)品已經(jīng)遠銷全球170多個國家和地區(qū),北美市場占有率超40%,過去三年銷量年均100%的增長,并拿到了100多項全球?qū)@J證。
在混沌的環(huán)境中,時空壺的成功不是偶然,持續(xù)領(lǐng)先的背后是一群年輕人對技術(shù)的堅守。據(jù)悉,時空壺現(xiàn)在有100多人,一半都是研發(fā)人員,每年收入的20-25%都會被拿來投入研發(fā)。要知道,一般的消費電子公司的研發(fā)投入占收入比重普遍在5-10%,而時空壺的研發(fā)投入比重已經(jīng)跟華為處在一個級別。
在田力的心中,持續(xù)的投入是必須的,探索者和專家是希望給消費者留下的品牌印象,同時也希望給用戶傳遞更多的人文精神,讓用戶感覺到產(chǎn)品是有溫度的,它不是一個簡單的工具,而是一個人和人的溝通的連接器。
都說翻譯是遺憾的藝術(shù),時空壺在做的事,就是要終結(jié)這個遺憾,加速邁向L5級別AI翻譯的路上,以實用主義重鑄巴別塔,解決跨語言溝通問題。
“這個世界上不缺乏那種能卷的公司,但真正缺乏那種能原創(chuàng)做事情的公司。從用戶的需求來看,產(chǎn)品和技術(shù)還遠遠沒有達到理想狀態(tài),所以我們還在一個快速投入期。我們下一步就是把它做到80多分、90分,就像L4級別的自動駕駛一樣,解放更多人對語言的恐懼?!保ū疚氖装l(fā)于鈦媒體App)