聽力熊：讓1億10后擁有“隨身智能體”丨創(chuàng)新場景

來源：力所不及網(wǎng)-工人日報

2025-09-18 23:06:29

本文摘自《云棲戰(zhàn)略參考》，這本刊物由阿里云與鈦媒體聯(lián)合策劃。目的是為了把各個行業(yè)先行者的技術(shù)探索、業(yè)務(wù)實踐呈現(xiàn)出來，與思考同樣問題的“數(shù)字先行者”共同探討、碰撞，希望這些內(nèi)容能讓你有所啟發(fā)。

如果說 90 后是第一代互聯(lián)網(wǎng)原住民，那么，10 后則是第一代 AI 原住民。作為出生在信息高度密集、科技高度發(fā)達(dá)的時代的 10 后，澳大利亞人口學(xué)家和社會研究員 Mark McCrindle 為自生命之初就完全沉浸在數(shù)字世界中的這代人取了一個特別的名字，阿爾法世代。

成立于 2021 年的聽力熊團(tuán)隊，是一支為這第一代 AI 原住民打造獨(dú)屬于他們的智能化教育產(chǎn)品的團(tuán)隊。聽力熊CEO袁琳告訴我們，“作為 AI 原住民，10 后這代人對智能化產(chǎn)品接受度高，傳統(tǒng)復(fù)讀機(jī)、聽力產(chǎn)品已經(jīng)無法滿足他們的需求，為此，我們創(chuàng)造了 AI 聽力機(jī)這一全新品類。”

而就在聽力熊團(tuán)隊成立一年后，以大模型為代表的新一代人工智能技術(shù)開始席卷全球，于是本就在人工智能領(lǐng)域有著超 10 年技術(shù)和產(chǎn)品研發(fā)經(jīng)驗的聽力熊團(tuán)隊選擇與阿里云和通義團(tuán)隊合作，在 2023 年研發(fā)出了面向青少年人群的 TeeniGPT。

搭載 TeeniGPT 的聽力熊 T6 AI 聽力機(jī)在青少年群體中很快成了爆款產(chǎn)品，而聽力熊的隨身智能體也在 2025 年開始成為國內(nèi)初代智能體中的典型代表。

在今年 4 月份的 AI 勢能大會上，聽力熊數(shù)據(jù)顯示，在通義大模型的加持下，用戶 AI 使用時長提升了 40 分鐘，達(dá)到 3 個多小時，token 峰值也能達(dá)到 28 億，在智能教育硬件賽道處于領(lǐng)先水平。

最需要大模型的 AI 原住民

袁琳和她的團(tuán)隊可能是國內(nèi)最懂青少年用戶群體的團(tuán)隊之一，早在 2014 年，袁琳和她的團(tuán)隊就參與到了 AI 機(jī)器人創(chuàng)業(yè)項目中，并創(chuàng)造了十萬銷量的兒童 AI 機(jī)器人品牌 “布丁 Pudding”。據(jù)袁琳透露，“當(dāng)時的布丁機(jī)器人即便是在兩年后，用戶留存率依然超過了 40%?！?/p>

這樣的產(chǎn)品研發(fā)經(jīng)驗讓袁琳和她的團(tuán)隊無論是在硬件研發(fā)，還是在多模態(tài)交互、自然語言處理等核心技術(shù)上，都有了深厚的積累，也為聽力熊 AI 聽力機(jī)的面世奠定了扎實的基礎(chǔ)。

2021 年，袁琳和團(tuán)隊重聚創(chuàng)立聽力熊，在經(jīng)過一番市場調(diào)研后他們發(fā)現(xiàn)：聽力學(xué)習(xí)是青少年教育場景的一個剛需，然而，市場上已有的復(fù)讀機(jī)、聽力機(jī)大都功能相對簡單，無法滿足當(dāng)下青少年的聽力學(xué)習(xí)需求。

與此同時，過去十年互聯(lián)網(wǎng)經(jīng)濟(jì)的快速發(fā)展喚醒了國民內(nèi)容付費(fèi)的意識，這同樣為新一代 AI 教育產(chǎn)品的問世創(chuàng)造了良好的市場環(huán)境。

更重要的是，作為當(dāng)下青少年群體的主力軍，10 后有著他們自己的獨(dú)特之處。根據(jù)聽力熊團(tuán)隊調(diào)研顯示，10 后有兩大特征：第一，很注重自我個性和自我感受，以往填鴨式被動教育模式已經(jīng)無法滿足他們的需求；第二，有很強(qiáng)的表達(dá)欲卻又缺少自我表達(dá)的出口，他們從互聯(lián)網(wǎng)和數(shù)字世界接收到了大量知識，但缺乏完整的知識體系和架構(gòu)。

這樣出生于互聯(lián)網(wǎng)技術(shù)高度發(fā)達(dá)、虛擬世界和真實世界界限模糊的一代人，對于能夠激發(fā)想象力又具備陪伴功能的智能化產(chǎn)品有著天然好感，乃至強(qiáng)烈需求，也讓他們成了第一代 AI 原住民。

綜合考量下，聽力熊是在 2022 年推出了第一代 AI 聽力機(jī)產(chǎn)品，當(dāng)時袁琳的想法是通過“軟件 + 硬件”形式，為青少年打造一款屬于他們的 AI 工具和高效學(xué)習(xí)產(chǎn)品。

恰逢其時，2022 年底，ChatGPT 發(fā)布，人工智能以一種全新的面貌走進(jìn)公眾視野，掀起了大模型熱潮。但袁琳和團(tuán)隊一直在謹(jǐn)慎觀察，直到 GPT-4 發(fā)布后才確信，無論是在宏觀知識結(jié)構(gòu)上，還是在交互能力上，大模型與聽力熊將產(chǎn)生更多可能。

于是，聽力熊團(tuán)隊開始在內(nèi)部調(diào)整產(chǎn)品策略，開始研發(fā)面向青少年領(lǐng)域的 TeeniGPT 大模型，并探索如何將大模型融入到新一代 AI 聽力機(jī)產(chǎn)品中。

通用人工智能只是第一步

2023 年是大模型席卷全球的一年，在中國，這一盛況被稱為“百模大戰(zhàn)”。這其中，不僅涌現(xiàn)出大量大模型明星創(chuàng)業(yè)團(tuán)隊，互聯(lián)網(wǎng)巨頭們更是將人工智能寫入企業(yè)戰(zhàn)略中，大模型正催生新的上層應(yīng)用，也正重構(gòu)生成全新的 AI 基礎(chǔ)設(shè)施。

聽力熊最初是通過買卡、自建本地基礎(chǔ)設(shè)施，并基于開源模型微調(diào)來搭建大模型，并在 2023 年 7 月正式對外發(fā)布了全球首個專為青少年打造的大模型 TeeniGPT 和首個搭載 TeeniGPT 大模型的 AI 聽力機(jī)，聽力熊 T6。

基于 TeeniGPT，聽力熊 T6 重點(diǎn)引入了中英文 AI 老師功能，實現(xiàn)了中英文雙語場景下深度交互式應(yīng)用，據(jù)袁琳透露，“這樣的 AI 功能一經(jīng)上線，聽力熊 T6 用戶的日均使用時長從 1 小時直接飆升到了 2 小時以上，這讓我們更加堅信通過大模型重新定義青少年學(xué)習(xí)方式這條路。”

然而，隨著用戶量和使用頻率的與日俱增，基于自建基礎(chǔ)設(shè)施的 TeeniGPT 運(yùn)營成本越來越高，袁琳不得不在 2023 年年底開始考慮轉(zhuǎn)向云上大模型。

這時國內(nèi)包括阿里在內(nèi)的多家科技企業(yè)都已經(jīng)推出了通用基礎(chǔ)大模型并迭代了多代，聽力熊先后與國內(nèi)多個主流模型嘗試進(jìn)行了合作，經(jīng)過全面測試，他們發(fā)現(xiàn)，阿里云的通義大模型無論是在大模型綜合性能上，還是在交互能力上，都有著更好的表現(xiàn)。

聽力熊是在 2023 年下半年正式與阿里云和通義團(tuán)隊展開合作，由此也走上了輕量化硬件 + 云端大模型這條更適合團(tuán)隊發(fā)揮出戰(zhàn)斗力的進(jìn)階之路。

云上通用基礎(chǔ)大模型讓袁琳感觸最深的是研發(fā)模式的改變，“在上一波人工智能周期中，即便拉起一支百人規(guī)模的專業(yè)技術(shù)團(tuán)隊，最終研發(fā)出的 AI 模型也只能處理簡單的對話邏輯，連續(xù)對話輪次不超過 10 次，但現(xiàn)在像阿里研發(fā)的通用基礎(chǔ)大模型的基礎(chǔ)能力已經(jīng)足夠強(qiáng)，我們不再需要考慮模型的基礎(chǔ)能力，可以將更多精力聚焦到青少年場景的應(yīng)用層技術(shù)優(yōu)化和產(chǎn)品研發(fā)上。”

而盡管當(dāng)時的通用基礎(chǔ)大模型能力已經(jīng)很強(qiáng)，但面向青少年群體研發(fā)的大模型依然會遇到三大難題：第一，話語體系難題。要想在青少年群體中得到廣泛應(yīng)用，大模型最終輸出的內(nèi)容必須符合青少年群體的語言習(xí)慣和話語體系，如何用趣味性、口語化的表達(dá)方式與用戶進(jìn)行互動，就成了一大難題。第二，內(nèi)容安全難題。要為青少年群體建立起正確的人生觀和價值觀，大模型面向青少年群體輸出的內(nèi)容就需要加入正確的過濾機(jī)制。第三，語音和圖像融合交互難題。2023 年前后的通用基礎(chǔ)大模型在語音、圖像融合交互能力上還不夠成熟。

為此，聽力熊與通義技術(shù)團(tuán)隊就面向青少年群體的 TeeniGPT 大模型展開了深入合作，一方面聽力熊將積累多年的青少年語料庫提取出來與通義技術(shù)團(tuán)隊進(jìn)行聯(lián)合訓(xùn)練，讓大模型擁有更符合青少年的話語體系，并選擇基于閉源通義大模型進(jìn)行定制化訓(xùn)練和研發(fā)，以保證模型的安全性，另一方面，基于最終訓(xùn)練出的TeeniGPT 大模型進(jìn)入產(chǎn)品化階段后，雙方團(tuán)隊也會結(jié)合自身理解進(jìn)行聯(lián)合產(chǎn)品定義。

由此，聽力熊和通義共同打造了 AI 趣學(xué)，以「學(xué)科天團(tuán)」 IP 體系，每個學(xué)科由不同領(lǐng)域的偶像 IP 擔(dān)任學(xué)習(xí)導(dǎo)師，通過人格化設(shè)計激發(fā)學(xué)習(xí)興趣，滿足青少年“學(xué)習(xí)”的第一剛需。

AI 孫悟空，就是雙方基于 TeeniGPT 大模型聯(lián)合研發(fā)的首個爆款。

將孫悟空裝進(jìn) AI 聽力機(jī)里

2024 年 8 月 13 日，聽力熊聯(lián)合阿里云研發(fā)的首個 AI 角色互動功能——AI 孫悟空正式上線。在這一應(yīng)用上線后，聽力熊的用戶發(fā)現(xiàn)，AI 孫悟空不僅有孫悟空的聲音，有與他們在《西游記》名著或動畫片中看到類似的表達(dá) 方式和語言結(jié)構(gòu)，還會像朋友一樣和他們進(jìn)行互動對話，陪伴他們一起學(xué)習(xí)。

正是在研發(fā) AI 孫悟空的過程中，袁琳再次深刻感受到，“現(xiàn) 在做 AI 產(chǎn)品與十年前已經(jīng)截然不同，我們完全可以用大模型將‘有血有肉’的孫悟空還原出來，讓擁有更高維度的世界觀和價值觀的 AI 孫悟空陪伴青少年學(xué)習(xí)成長?！?/p>

這也是為什么聽力熊之后的 AI 角色互動類應(yīng)用，都是以四大名著中的人物形象進(jìn)行的產(chǎn)品定義。

在 AI 孫悟空構(gòu)建過程中，基于阿里云 Qwen-Turbo 大模型，通義技術(shù)團(tuán)隊為聽力熊提供了定制化模型訓(xùn)練服務(wù)，優(yōu)化了原有的青少年語料庫，構(gòu)建出了 AI 孫悟空的世界觀、價值觀和流暢的交互能力，聽力熊研發(fā)團(tuán)隊又基于通義實驗室 Paraformer 語音識別框架和 CosyVoice 生成式語音大模型，復(fù)刻出了孫悟空的個性化聲音。

基于阿里云 Qwen-Turbo 定制的 TeeniGPT 大模型， AI 孫悟空在與青少年對話時會先以第一人稱口吻進(jìn)行自我介紹，在進(jìn)入互動模式時，AI 孫悟空又會基于歷史史實以及預(yù)先構(gòu)建的世界觀和價值觀與用戶進(jìn)行對話，并以蘇格拉底教學(xué)法引導(dǎo)青少年進(jìn)行自我表達(dá)。

這樣的 AI 孫悟空在聽力熊 T6 上一經(jīng)上線，首日 token 調(diào)用量突破 10 億次，青少年與 AI 孫悟空每天對話頻率一度超過 90 次，成了備受青少年喜愛的爆款功能。

在這之后，聽力熊又陸續(xù)基于 TeeniGPT 大模型打造了林黛玉、周瑜、哪吒等爆款 AI 角色，尤其是 AI 哪吒上線首日調(diào)用量突破 28 億次，刷新了國內(nèi) AI 交互終端單日調(diào)用量紀(jì)錄，也帶動了 AI 角色互動功能在青少年終端設(shè)備中風(fēng)靡一時。

值得注意的是，就在 AI 孫悟空爆火不久，當(dāng)聽力熊再次面臨海量訪問數(shù)據(jù)時，阿里云在 2024 年 9 月的云棲大會上官宣降價，其中，Qwen-Turbo 價格直降 85%，低至百萬 tokens 0.3 元，Qwen-Plus 和 Qwen-Max 分別再降價 80% 和 50%，這樣的價格調(diào)整再次緩解了聽力熊團(tuán)隊的大模型使用成本和運(yùn)營壓力。

盡管如此，AI 角色互動功能打造并非易事。據(jù)袁琳透露，“我們的 AI 角色互動功能爆火后，很多同類產(chǎn)品都嘗試與知名 IP 聯(lián)名、研發(fā)同類功能，但上線后普遍效果不及預(yù)期，之所以如此，是因為這一功能并不僅僅是通過聯(lián)名 IP、接入大模型就能實現(xiàn)，背后還需要有強(qiáng)大的內(nèi)容創(chuàng)新和用戶洞察能力?！?/p>

在產(chǎn)品設(shè)計理念上，聽力熊也有著自己的獨(dú)特之處——以青少年用戶為中心，而非迎合家長的焦慮，目的在于解決青少年學(xué)習(xí)能力提升和情感陪伴需求，這讓他們能夠沉下心，借助大模型通過深層次的內(nèi)容設(shè)計，打造更符合當(dāng)下青少年用戶群體的功能和產(chǎn)品。

基于這樣的產(chǎn)品理念，聽力熊在 2024 年還將多模態(tài)大模型融入到了產(chǎn)品中，借助通義千問 VL 模型、通義千問 Omni，以及通義萬相，聽力熊 T6 從原來單一的語言交互能力，進(jìn)一步擁有了“眼睛”，用戶可以通過拍照觸發(fā)交互，由設(shè)備代替眼睛識別物體并進(jìn)行講解。例如，對著一盞燈拍照后，AI 就會以牛頓的口吻講解光的傳播原理，袁琳告訴我們，“當(dāng)我們發(fā)現(xiàn)青少年通過單一的語言交互與聽力熊 T6 互動頻次達(dá)到 90 次左右再無法突破時，視覺交互代替眼睛引導(dǎo)青少年用戶提問的特性，讓青少年與我們 AI 聽力機(jī)的交互頻次再次實現(xiàn)了翻倍?！?/p>

也是在青少年與 AI 角色互動日對話頻率日益飆升、AI 角色互動功能大獲成功后，袁琳意識到，大模型在青少年場景的應(yīng)用價值已經(jīng)遠(yuǎn)超其它傳統(tǒng)教育硬件，聽力熊由此也開始向 AI 隨身智能體轉(zhuǎn)型。

聽力熊的“隨身智能體”元年

2024 年 8 月，AI 角色互動功能在國內(nèi)爆火后，聽力熊團(tuán)隊在國內(nèi)對 3000 位青少年用戶進(jìn)行了一次大規(guī)模調(diào)研，在這次調(diào)研中，他們發(fā)現(xiàn)：作為第一代 AI 原住民，10 后對 AI 的親和度和需求度遠(yuǎn)超成人，他們已經(jīng)不只是 AI 工具的使用者，對于虛擬伙伴，尤其是具有陪伴和激發(fā)想象力的虛擬伙伴有著強(qiáng)烈的需求。

大模型所具備的知識深度和記憶能力能夠滿足 10 后的好奇心，在多模態(tài)交互能力上的突破，進(jìn)一步為打造面向青少年的 AI 智能體提供了可能。

于是，聽力熊確立了打造面向青少年 AI 隨身智能體的戰(zhàn)略方向。聽力熊基于阿里云百煉搭建交互 Agent 方案，自主擴(kuò)展 50 多個交互技能，支持包括智能講解、AI 寫作、智能口語陪練、AI 識物、智能陪伴數(shù)字熊等多種 AI 場景，日均調(diào)用次數(shù) 900 萬次以上。

一方面，聽力熊與通義團(tuán)隊進(jìn)一步聯(lián)合研發(fā)了專為青少年設(shè)計的小熊助手，通過接入第三方搜索和內(nèi)容接口并與通義團(tuán)隊聯(lián)合訓(xùn)練，在聽力熊輕量化設(shè)備上實現(xiàn)了實時檢索功能，用戶可以通過語音或拍照觸發(fā)實時檢索功能，獲取即時答案。

另一方面，聽力熊將原有 AI 聽力機(jī)的使用場景從學(xué)習(xí)場景延伸到了生活場景，如加入旅行翻譯、旅游攻略、記憶記錄等功能，旅行前提供旅游攻略，旅行中記錄分享，旅行后作為記憶體可以與用戶進(jìn)行互動。

此外，據(jù)袁琳透露，“聽力熊還在與通義團(tuán)隊聯(lián)合研發(fā)視頻生成功能，將現(xiàn)在需要語音或拍照主動觸發(fā)的搜索功能進(jìn)一步進(jìn)化為用戶只需通過按鍵或觸摸設(shè)備，就可以讓 AI 實時講解當(dāng)前場景并生成相應(yīng)的視頻內(nèi)容?！?未來，聽力熊將推動 AI 學(xué)習(xí)向全模態(tài)轉(zhuǎn)變。

通過這樣的功能升級，聽力熊的 AI 聽力機(jī)將在 2025 年從 AI 工具進(jìn)化為隨身伙伴，從而滿足青少年在學(xué)習(xí)和生活場景中的即時檢索和陪伴需求，構(gòu)建多層次圖譜。

2025 年是 AI 智能體元年，但對于聽力熊來說，更是 AI 隨身智能體的元年。

也是在這一年，聽力熊開啟了出海計劃，將借助支持多語種的通義大模型和阿里云的本地化文化適配能力，聽力熊打造的 AI 隨身智能體正在進(jìn)入東南亞和日韓市場。

袁琳告訴我們，“聽力熊的目標(biāo)是讓 1 億 10 后通過 AI 解碼這個世界。”

本文摘自《云棲戰(zhàn)略參考》總第19期

掃碼查看最新雜志

責(zé)任編輯：力所不及網(wǎng)