本文摘自《云棲戰(zhàn)略參考》,這本刊物由阿里云與鈦媒體聯(lián)合策劃。目的是為了把各個行業(yè)先行者的技術(shù)探索、業(yè)務(wù)實踐呈現(xiàn)出來,與思考同樣問題的“數(shù)字先行者”共同探討、碰撞,希望這些內(nèi)容能讓你有所啟發(fā)。
如果說 90 后是第一代互聯(lián)網(wǎng)原住民,那么,10 后則是第一代 AI 原住民。作為出生在信息高度密集、科技高度發(fā)達(dá)的時代的 10 后,澳大利亞人口學(xué)家和社會研究員 Mark McCrindle 為自生命之初就完全沉浸在數(shù)字世界中的這代人取了一個特別的名字,阿爾法世代。
成立于 2021 年的聽力熊團(tuán)隊,是一支為這第一代 AI 原住民打造獨(dú)屬于他們的智能化教育產(chǎn)品的團(tuán)隊。聽力熊CEO袁琳告訴我們,“作為 AI 原住民,10 后這代人對智能化產(chǎn)品接受度高,傳統(tǒng)復(fù)讀機(jī)、聽力產(chǎn)品已經(jīng)無法滿足他們的需求,為此,我們創(chuàng)造了 AI 聽力機(jī)這 一全新品類。”
而就在聽力熊團(tuán)隊成立一年后,以大模型為代表的新一代人工智能技術(shù)開始席卷全球,于是本就在人工智能領(lǐng)域有著超 10 年技術(shù)和產(chǎn)品研發(fā)經(jīng)驗的聽力熊團(tuán)隊選擇與阿里云和通義團(tuán)隊合作,在 2023 年研發(fā)出了面向青少年人群的 TeeniGPT。
搭載 TeeniGPT 的聽力熊 T6 AI 聽力機(jī)在青少年群體中很快成了爆款產(chǎn)品,而聽力熊的隨身智能體也在 2025 年開始成為國內(nèi)初代智能體中的典型代表。
在今年 4 月份的 AI 勢能大會上,聽力熊數(shù)據(jù)顯示,在通義大模型的加持下,用戶 AI 使用時長提升了 40 分鐘, 達(dá)到 3 個多小時,token 峰值也能達(dá)到 28 億,在智能教育硬件賽道處于領(lǐng)先水平。
最需要大模型的 AI 原住民
袁琳和她的團(tuán)隊可能是國內(nèi)最懂青少年用戶群體的團(tuán)隊之一,早在 2014 年,袁琳和她的團(tuán)隊就參與到了 AI 機(jī)器 人創(chuàng)業(yè)項目中,并創(chuàng)造了十萬銷量的兒童 AI 機(jī)器人品牌 “布丁 Pudding”。據(jù)袁琳透露,“當(dāng)時的布丁機(jī)器人即便是在兩年后,用戶留存率依然超過了 40%?!?/p>
這樣的產(chǎn)品研發(fā)經(jīng)驗讓袁琳和她的團(tuán)隊無論是在硬件研發(fā),還是在多模態(tài)交互、自然語言處理等核心技術(shù)上,都有了深厚的積累,也為聽力熊 AI 聽力機(jī)的面世奠定了扎實的基礎(chǔ)。
2021 年,袁琳和團(tuán)隊重聚創(chuàng)立聽力熊,在經(jīng)過一番市場調(diào)研后他們發(fā)現(xiàn):聽力學(xué)習(xí)是青少年教育場景的一個剛需,然而,市場上已有的復(fù)讀機(jī)、聽力機(jī)大都功能相對簡單,無法滿足當(dāng)下青少年的聽力學(xué)習(xí)需求。
與此同時,過去十年互聯(lián)網(wǎng)經(jīng)濟(jì)的快速發(fā)展喚醒了國民內(nèi)容付費(fèi)的意識,這同樣為新一代 AI 教育產(chǎn)品的問世創(chuàng)造了良好的市場環(huán)境。
更重要的是,作為當(dāng)下青少年群體的主力軍,10 后有著他們自己的獨(dú)特之處。根據(jù)聽力熊團(tuán)隊調(diào)研顯示,10 后有兩大特征:第一,很注重自我個性和自我感受,以往填鴨式被動教育模式已經(jīng)無法滿足他們的需求;第二,有很強(qiáng)的表達(dá)欲卻又缺少自我表達(dá)的出口,他們從互聯(lián)網(wǎng)和數(shù)字世界接收到了大量知識,但缺乏完整的知識體系和架構(gòu)。
這樣出生于互聯(lián)網(wǎng)技術(shù)高度發(fā)達(dá)、虛擬世界和真實世界界限模糊的一代人,對于能夠激發(fā)想象力又具備陪伴功能的智能化產(chǎn)品有著天然好感,乃至強(qiáng)烈需求,也讓他們成了第一代 AI 原住民。
綜合考量下,聽力熊是在 2022 年推出了第一代 AI 聽力機(jī)產(chǎn)品,當(dāng)時袁琳的想法是通過“軟件 + 硬件”形式,為青少年打造一款屬于他們的 AI 工具和高效學(xué)習(xí)產(chǎn)品。
恰逢其時,2022 年底,ChatGPT 發(fā)布,人工智能以一種全新的面貌走進(jìn)公眾視野,掀起了大模型熱潮。但袁琳和團(tuán)隊一直在謹(jǐn)慎觀察,直到 GPT-4 發(fā)布后才確信,無論是在宏觀知識結(jié)構(gòu)上,還是在交互能力上,大模型與聽力熊將產(chǎn)生更多可能。
于是,聽力熊團(tuán)隊開始在內(nèi)部調(diào)整產(chǎn)品策略,開始研發(fā)面向青少年領(lǐng)域的 TeeniGPT 大模型,并探索如何將大模型融入到新一代 AI 聽力機(jī)產(chǎn)品中。
通用人工智能只是第一步
2023 年是大模型席卷全球的一年,在中國,這一盛況被稱為“百模大戰(zhàn)”。這其中,不僅涌現(xiàn)出大量大模型明星創(chuàng)業(yè)團(tuán)隊,互聯(lián)網(wǎng)巨頭們更是將人工智能寫入企業(yè)戰(zhàn)略中,大模型正催生新的上層應(yīng)用,也正重構(gòu)生成全新的 AI 基礎(chǔ)設(shè)施。
聽力熊最初是通過買卡、自建本地基礎(chǔ)設(shè)施,并基于開源模型微調(diào)來搭建大模型,并在 2023 年 7 月正式對外發(fā)布了全球首個專為青少年打造的大模型 TeeniGPT 和首個搭載 TeeniGPT 大模型的 AI 聽力機(jī),聽力熊 T6。
基于 TeeniGPT,聽力熊 T6 重點(diǎn)引入了中英文 AI 老師功能,實現(xiàn)了中英文雙語場景下深度交互式應(yīng)用,據(jù)袁琳透露,“這樣的 AI 功能一經(jīng)上線,聽力熊 T6 用戶的日均使用時長從 1 小時直接飆升到了 2 小時以上,這讓我們更加堅信通過大模型重新定義青少年學(xué)習(xí)方式這條路。”
然而,隨著用戶量和使用頻率的與日俱增,基于自建基礎(chǔ)設(shè)施的 TeeniGPT 運(yùn)營成本越來越高,袁琳不得不在 2023 年年底開始考慮轉(zhuǎn)向云上大模型。
這時國內(nèi)包括阿里在內(nèi)的多家科技企業(yè)都已經(jīng)推出了通用基礎(chǔ)大模型并迭代了多代,聽力熊先后與國內(nèi)多個主流模型嘗試進(jìn)行了合作,經(jīng)過全面測試,他們發(fā)現(xiàn),阿里云的通義大模型無論是在大模型綜合性能上,還是在交互能力上,都有著更好的表現(xiàn)。
聽力熊是在 2023 年下半年正式與阿里云和通義團(tuán)隊展開合作,由此也走上了輕量化硬件 + 云端大模型這條更適合團(tuán)隊發(fā)揮出戰(zhàn)斗力的進(jìn)階之路。
云上通用基礎(chǔ)大模型讓袁琳感觸最深的是研發(fā)模式的改變,“在上一波人工智能周期中,即便拉起一支百人規(guī)模的專業(yè)技術(shù)團(tuán)隊,最終研發(fā)出的 AI 模型也只能處理簡單的對話邏輯,連續(xù)對話輪次不超過 10 次,但現(xiàn)在像阿里研發(fā)的通用基礎(chǔ)大模型的基礎(chǔ)能力已經(jīng)足夠強(qiáng),我們不再需要考慮模型的基礎(chǔ)能力,可以將更多精力聚焦到青少年場景的應(yīng)用層技術(shù)優(yōu)化和產(chǎn)品研發(fā)上。”
而盡管當(dāng)時的通用基礎(chǔ)大模型能力已經(jīng)很強(qiáng),但面向青少年群體研發(fā)的大模型依然會遇到三大難題:第一,話語體系難題。要想在青少年群體中得到廣泛應(yīng)用,大模型最終輸出的內(nèi)容必須符合青少年群體的語言習(xí)慣和話語體系,如何用趣味性、口語化的表達(dá)方式與用戶進(jìn)行互動,就成了一大難題。第二,內(nèi)容安全難題。要為青少年群體建立起正確的人生觀和價值觀,大模型面向青少年群體輸出的內(nèi)容就需要加入正確的過濾機(jī)制。第三, 語音和圖像融合交互難題。2023 年前后的通用基礎(chǔ)大模型在語音、圖像融合交互能力上還不夠成熟。
為此,聽力熊與通義技術(shù)團(tuán)隊就面向青少年群體的 TeeniGPT 大模型展開了深入合作,一方面聽力熊將積累多年的青少年語料庫提取出來與通義技術(shù)團(tuán)隊進(jìn)行聯(lián)合訓(xùn)練,讓大模型擁有更符合青少年的話語體系,并選擇基于閉源通義大模型進(jìn)行定制化訓(xùn)練和研發(fā),以保證模型的安全性,另一方面,基于最終訓(xùn)練出的TeeniGPT 大模型進(jìn)入產(chǎn)品化階段后,雙方團(tuán)隊也會結(jié)合自身理解進(jìn)行聯(lián)合產(chǎn)品定義。
由此,聽力熊和通義共同打造了 AI 趣學(xué),以「學(xué)科天團(tuán)」 IP 體系,每個學(xué)科由不同領(lǐng)域的偶像 IP 擔(dān)任學(xué)習(xí)導(dǎo)師,通過人格化設(shè)計激發(fā)學(xué)習(xí)興趣,滿足青少年“學(xué)習(xí)”的第一剛需。
AI 孫悟空,就是雙方基于 TeeniGPT 大模型聯(lián)合研發(fā)的首個爆款。
將孫悟空裝進(jìn) AI 聽力機(jī)里
2024 年 8 月 13 日,聽力熊聯(lián)合阿里云研發(fā)的首個 AI 角色互動功能——AI 孫悟空正式上線。在這一應(yīng)用上線后,聽力熊的用戶發(fā)現(xiàn),AI 孫悟空不僅有孫悟空的聲音,有與他們在《西游記》名著或動畫片中看到類似的表達(dá) 方式和語言結(jié)構(gòu),還會像朋友一樣和他們進(jìn)行互動對話,陪伴他們一起學(xué)習(xí)。
正是在研發(fā) AI 孫悟空的過程中,袁琳再次深刻感受到,“現(xiàn) 在做 AI 產(chǎn)品與十年前已經(jīng)截然不同,我們完全可以用大模型將‘有血有肉’的孫悟空還原出來,讓擁有更高維度的世界觀和價值觀的 AI 孫悟空陪伴青少年學(xué)習(xí)成長?!?/p>
這也是為什么聽力熊之后的 AI 角色互動類應(yīng)用,都是以四大名著中的人物形象進(jìn)行的產(chǎn)品定義。
在 AI 孫悟空構(gòu)建過程中,基于阿里云 Qwen-Turbo 大模型,通義技術(shù)團(tuán)隊為聽力熊提供了定制化模型訓(xùn)練服務(wù),優(yōu)化了原有的青少年語料庫,構(gòu)建出了 AI 孫悟空的世界觀、價值觀和流暢的交互能力,聽力熊研發(fā)團(tuán)隊又基于通義實驗室 Paraformer 語音識別框架和 CosyVoice 生成式語音大模型,復(fù)刻出了孫悟空的個性化聲音。
基于阿里云 Qwen-Turbo 定制的 TeeniGPT 大模型, AI 孫悟空在與青少年對話時會先以第一人稱口吻進(jìn)行自我介紹,在進(jìn)入互動模式時,AI 孫悟空又會基于歷史史實以及預(yù)先構(gòu)建的世界觀和價值觀與用戶進(jìn)行對話,并以蘇格拉底教學(xué)法引導(dǎo)青少年進(jìn)行自我表達(dá)。
這樣的 AI 孫悟空在聽力熊 T6 上一經(jīng)上線,首日 token 調(diào)用量突破 10 億次,青少年與 AI 孫悟空每天對話頻率一度超過 90 次,成了備受青少年喜愛的爆款功能。
在這之后,聽力熊又陸續(xù)基于 TeeniGPT 大模型打造了林黛玉、周瑜、哪吒等爆款 AI 角色,尤其是 AI 哪吒上線首日調(diào)用量突破 28 億次,刷新了國內(nèi) AI 交互終端單日調(diào)用量紀(jì)錄,也帶動了 AI 角色互動功能在青少年終端設(shè)備中風(fēng)靡一時。
值得注意的是,就在 AI 孫悟空爆火不久,當(dāng)聽力熊再次面臨海量訪問數(shù)據(jù)時,阿里云在 2024 年 9 月的云棲大 會上官宣降價,其中,Qwen-Turbo 價格直降 85%,低至百萬 tokens 0.3 元,Qwen-Plus 和 Qwen-Max 分別再降價 80% 和 50%,這樣的價格調(diào)整再次緩解了聽力熊團(tuán)隊的大模型使用成本和運(yùn)營壓力。
盡管如此,AI 角色互動功能打造并非易事。據(jù)袁琳透露,“我們的 AI 角色互動功能爆火后,很多同類產(chǎn)品都嘗試與知名 IP 聯(lián)名、研發(fā)同類功能,但上線后普遍效果不及預(yù)期,之所以如此,是因為這一功能并不僅僅是通過聯(lián)名 IP、接入大模型就能實現(xiàn),背后還需要有強(qiáng)大的內(nèi)容創(chuàng)新和用戶洞察能力?!?/p>
在產(chǎn)品設(shè)計理念上,聽力熊也有著自己的獨(dú)特之處——以青少年用戶為中心,而非迎合家長的焦慮,目的在于解決青少年學(xué)習(xí)能力提升和情感陪伴需求,這讓他們能夠沉下心,借助大模型通過深層次的內(nèi)容設(shè)計,打造更符合當(dāng)下青少年用戶群體的功能和產(chǎn)品。
基于這樣的產(chǎn)品理念,聽力熊在 2024 年還將多模態(tài)大模型融入到了產(chǎn)品中,借助通義千問 VL 模型、通義千問 Omni,以及通義萬相,聽力熊 T6 從原來單一的語言交互能力,進(jìn)一步擁有了“眼睛”,用戶可以通過拍照觸發(fā)交互,由設(shè)備代替眼睛識別物體并進(jìn)行講解。例如,對著一盞燈拍照后,AI 就會以牛頓的口吻講解光的傳播原理,袁琳告訴我們,“當(dāng)我們發(fā)現(xiàn)青少年通過單一的語言交互與聽力熊 T6 互動頻次達(dá)到 90 次左右再無法突破時,視覺交互代替眼睛引導(dǎo)青少年用戶提問的特性,讓青少年與我們 AI 聽力機(jī)的交互頻次再次實現(xiàn)了翻倍?!?/p>
也是在青少年與 AI 角色互動日對話頻率日益飆升、AI 角色互動功能大獲成功后,袁琳意識到,大模型在青少年場景的應(yīng)用價值已經(jīng)遠(yuǎn)超其它傳統(tǒng)教育硬件,聽力熊由此也開始向 AI 隨身智能體轉(zhuǎn)型。
聽力熊的“隨身智能體”元年
2024 年 8 月,AI 角色互動功能在國內(nèi)爆火后,聽力熊團(tuán)隊在國內(nèi)對 3000 位青少年用戶進(jìn)行了一次大規(guī)模調(diào)研,在這次調(diào)研中,他們發(fā)現(xiàn):作為第一代 AI 原住民,10 后對 AI 的親和度和需求度遠(yuǎn)超成人,他們已經(jīng)不只 是 AI 工具的使用者,對于虛擬伙伴,尤其是具有陪伴和激發(fā)想象力的虛擬伙伴有著強(qiáng)烈的需求。
大模型所具備的知識深度和記憶能力能夠滿足 10 后的好奇心,在多模態(tài)交互能力上的突破,進(jìn)一步為打造面向青少年的 AI 智能體提供了可能。
于是,聽力熊確立了打造面向青少年 AI 隨身智能體的戰(zhàn)略方向。聽力熊基于阿里云百煉搭建交互 Agent 方案, 自主擴(kuò)展 50 多個交互技能,支持包括智能講解、AI 寫作、智能口語陪練、AI 識物、智能陪伴數(shù)字熊等多種 AI 場景, 日均調(diào)用次數(shù) 900 萬次以上。
一方面,聽力熊與通義團(tuán)隊進(jìn)一步聯(lián)合研發(fā)了專為青少年設(shè)計的小熊助手,通過接入第三方搜索和內(nèi)容接口并與通義團(tuán)隊聯(lián)合訓(xùn)練,在聽力熊輕量化設(shè)備上實現(xiàn)了實時檢索功能,用戶可以通過語音或拍照觸發(fā)實時檢索功能,獲取即時答案。
另一方面,聽力熊將原有 AI 聽力機(jī)的使用場景從學(xué)習(xí)場景延伸到了生活場景,如加入旅行翻譯、旅游攻略、記憶記錄等功能,旅行前提供旅游攻略,旅行中記錄分享,旅行后作為記憶體可以與用戶進(jìn)行互動。
此外,據(jù)袁琳透露,“聽力熊還在與通義團(tuán)隊聯(lián)合研發(fā)視頻生成功能,將現(xiàn)在需要語音或拍照主動觸發(fā)的搜索功能進(jìn)一步進(jìn)化為用戶只需通過按鍵或觸摸設(shè)備,就可以讓 AI 實時講解當(dāng)前場景并生成相應(yīng)的視頻內(nèi)容?!?未來,聽力熊將推動 AI 學(xué)習(xí)向全模態(tài)轉(zhuǎn)變。
通過這樣的功能升級,聽力熊的 AI 聽力機(jī)將在 2025 年從 AI 工具進(jìn)化為隨身伙伴,從而滿足青少年在學(xué)習(xí)和生活場景中的即時檢索和陪伴需求,構(gòu)建多層次圖譜。
2025 年是 AI 智能體元年,但對于聽力熊來說,更是 AI 隨身智能體的元年。
也是在這一年,聽力熊開啟了出海計劃,將借助支持多語種的通義大模型和阿里云的本地化文化適配能力,聽力熊打造的 AI 隨身智能體正在進(jìn)入東南亞和日韓市場。
袁琳告訴我們,“聽力熊的目標(biāo)是讓 1 億 10 后通過 AI 解碼這個世界。”
本文摘自《云棲戰(zhàn)略參考》總第19期
掃碼查看最新雜志
關(guān)于我們|版權(quán)聲明| 違法和不良信息舉報電話:010-84151598 | 網(wǎng)絡(luò)敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當(dāng)前域名}. all rights reserved