全區(qū)分站：南寧|柳州|梧州|玉林|北海|百色|河池|桂林|欽州|賀州|防城港|貴港|分站招商

當(dāng)前位置：首頁 > 新聞中心 > 新聞資訊 > 車市評(píng)論

咨詢底價(jià)申請(qǐng)?jiān)囻{團(tuán)購報(bào)名

車系首頁參數(shù)配置圖片實(shí)拍廣西報(bào)價(jià)文章我要點(diǎn)評(píng)二手車

合眾新能源汽車：大模型上車成為“車大腦”，如何賦能智能語音交互？

2024年1月7日來源：廣西汽車網(wǎng)

2023年12月12日，在2023第五屆智能座艙與用戶體驗(yàn)大會(huì)上，據(jù)合眾新能源汽車股份有限公司軟件開發(fā)總工程師蔡勇介紹，語音作為座艙的第一交互方式，自2010年語音輸入法的推出開始萌芽；2016年，語音助手的前裝上車開始引起行業(yè)的關(guān)注。但直到2019年，行業(yè)推出“全場(chǎng)景的連續(xù)對(duì)話”才使得語音助手的發(fā)展走向成熟。2023年，大模型技術(shù)的出現(xiàn)將帶來新的賽道。

蔡勇表示，哪吒汽車的語音助手一直圍繞自然、全面、聰穎三個(gè)關(guān)鍵詞進(jìn)行設(shè)計(jì)。而大模型技術(shù)表現(xiàn)為通才、專業(yè)、自然三個(gè)特點(diǎn)。從C端來看，大模型將來個(gè)性化服務(wù)的變革，比如個(gè)性化頭像，昵稱，情感陪伴；從B端來看，將主要實(shí)現(xiàn)降本增效，在文本、圖片、視頻、編程、報(bào)表等方面帶來助力。當(dāng)前，大模型上車仍處于萌芽期，在應(yīng)用上主打功能移植、以宣傳為主、與車的結(jié)合較少。

面向大模型的思考，蔡勇認(rèn)為大模型實(shí)現(xiàn)可以作為內(nèi)部工具使用，比如，可以進(jìn)行數(shù)據(jù)和評(píng)價(jià)上的應(yīng)用；當(dāng)前大模型上車還處于探索期，重點(diǎn)方向應(yīng)該是大模型要跟車場(chǎng)景結(jié)合；最后在成長期，大模型將發(fā)揮“車大腦”的功能，進(jìn)行座艙功能的主動(dòng)執(zhí)行，并且是“最適合你”的。

蔡勇 | 合眾新能源汽車股份有限公司軟件開發(fā)總工程師

以下為演講內(nèi)容整理：

首先簡(jiǎn)單介紹我們的公司——合眾新能源汽車股份有限公司。我們公司的Logo是由人、樹、泉三個(gè)元素疊合而成，這不僅體現(xiàn)了我們公司對(duì)大自然的敬畏，也象征著我們以人為本、與自然和諧共生的理念。

公司的品牌初心是為人民造車，這不僅僅是一句口號(hào)，更是我們對(duì)社會(huì)、對(duì)消費(fèi)者的承諾。我們的價(jià)值觀是“科技平權(quán)”，這四個(gè)字雖然簡(jiǎn)單，但卻承載著我們的使命和愿景。我們希望通過科技的力量，打破傳統(tǒng)豪華車與普通消費(fèi)者之間的壁壘，讓更多的人能夠享受到高品質(zhì)的汽車生活。

目前，我們公司推出了五款車型，包括哪吒V、哪吒U、哪吒S、哪吒GT以及剛剛上市的哪吒X。這些車型各具特色，滿足了不同消費(fèi)者的需求。

圖源：演講嘉賓素材

車載語音現(xiàn)狀

接下來，和大家分享車載語音的發(fā)展歷程。作為一名從業(yè)多年的專業(yè)人士，我見證了車載語音從無到有、從簡(jiǎn)單到復(fù)雜的發(fā)展過程。2010年，隨著智能手機(jī)的普及，語音輸入法應(yīng)運(yùn)而生。那個(gè)時(shí)候，我們還在思考如何將語音技術(shù)應(yīng)用到汽車上。隨著技術(shù)的不斷進(jìn)步，車載語音助手逐漸成為現(xiàn)實(shí)。2016年，斑馬與上汽合作推出了eRX5車型，將語音助手前裝至車內(nèi)，實(shí)現(xiàn)了與整車功能的緊密結(jié)合，這標(biāo)志著一個(gè)新的時(shí)代的開始。

然而，車載語音助手的發(fā)展并非一帆風(fēng)順。在2019年之前，語音助手的使用體驗(yàn)并不理想。每次只能執(zhí)行一個(gè)命令，無法連續(xù)對(duì)話；與車輛功能的結(jié)合也相對(duì)較少。直到行業(yè)在2019年推出了全場(chǎng)景連續(xù)對(duì)話功能，才真正解決了這些問題。如今，頭部車企的語音助手都已經(jīng)具備了全場(chǎng)景連續(xù)對(duì)話的特點(diǎn)，這為用戶帶來了更加便捷、智能的用車體驗(yàn)。未來，隨著技術(shù)的不斷突破，車載語音助手將會(huì)迎來更加廣闊的發(fā)展空間。新的賽道、新的產(chǎn)品將會(huì)不斷涌現(xiàn)，為用戶帶來更加美好的生活體驗(yàn)。

圖源：演講嘉賓素材

接下來，以哪吒汽車的語音助手為例，與大家探討2019年之后所呈現(xiàn)出的幾個(gè)重要特點(diǎn)。我們的云助手產(chǎn)品始終堅(jiān)守三個(gè)核心理念：自然、全面和聰穎。

首先是“自然”，這涉及到交互的自然流暢性。其中，喚醒速度是一個(gè)關(guān)鍵因素。經(jīng)過大量的優(yōu)化工作，我們?cè)诤献骰锇榈拇a基礎(chǔ)上實(shí)現(xiàn)了行業(yè)領(lǐng)先的喚醒速度，端到端僅需300毫秒。我們采用目前最先進(jìn)的流式理解技術(shù)，實(shí)現(xiàn)字詞的邊識(shí)別邊理解。這就像人們?cè)趯?duì)話時(shí)，每說一個(gè)字或詞，大腦都在對(duì)其進(jìn)行處理。

今年10月，我們OTA成功推送了“兩字喚醒”功能，只需簡(jiǎn)單的“哪吒”命令，無需再添加“你好”。客戶普遍反饋這種簡(jiǎn)化方式更為友好。實(shí)踐證明，只要下定決心，技術(shù)難題都可以克服。

其次，我們的語音助手實(shí)現(xiàn)了70%的車控功能全覆蓋。無論是打開車窗、調(diào)節(jié)音量還是其他控制功能，用戶都可以通過語音助手輕松實(shí)現(xiàn)。在“可見即可說”方面，我們也做到了全覆蓋。去年2月，我們推出了“圖片可見即可說”功能，用戶只需用自然語言描述圖片，助手就能識(shí)別并與之互動(dòng)。今年5月，我們?cè)俅我I(lǐng)行業(yè)潮流，推出了更先進(jìn)的多模態(tài)語音交互功能。例如，當(dāng)副駕駛乘客要求聽歌或看視頻時(shí)，語音助手會(huì)根據(jù)OMS攝像頭捕捉到的副駕駛視線所及的屏幕，自動(dòng)切換到相應(yīng)的中控屏或副駕屏。這大大提升了用戶體驗(yàn)和交互的自然性。

最后是“聰穎”。語音導(dǎo)航的自學(xué)習(xí)。盡管目前的語音識(shí)別技術(shù)在準(zhǔn)確率方面取得了顯著進(jìn)步，但對(duì)于某些特定的POI地點(diǎn)，尤其是新出現(xiàn)的地點(diǎn)，仍然存在一定挑戰(zhàn)。例如，上海的金科中心，其名字中的“金”和“晶”的發(fā)音對(duì)于普通人來說，可能難以通過發(fā)音區(qū)分清楚。為了解決這一問題，我們開發(fā)了一項(xiàng)自學(xué)習(xí)技術(shù)。當(dāng)用戶首次使用語音導(dǎo)航，識(shí)別出錯(cuò)時(shí)，只需手動(dòng)發(fā)起導(dǎo)航至該地點(diǎn)，系統(tǒng)便會(huì)自學(xué)習(xí)成功。下次再導(dǎo)航至同一地點(diǎn)時(shí)，系統(tǒng)將自動(dòng)調(diào)整語音識(shí)別結(jié)果，從而提高語音導(dǎo)航的準(zhǔn)確性。

語音使用量是一個(gè)關(guān)鍵指標(biāo)，它反映了語音產(chǎn)品對(duì)車輛貢獻(xiàn)的價(jià)值。為了更直觀地展示語音助手的價(jià)值，我向大家分享一組關(guān)于我們公司用戶數(shù)據(jù)的統(tǒng)計(jì)結(jié)果。在我們的用戶群體使用中，“意圖使用量”達(dá)到800+。與其他企業(yè)相比，我們的用戶特點(diǎn)呈現(xiàn)出較弱的“長尾效應(yīng)”。這意味著用戶的需求分布相對(duì)均勻，而不僅僅是集中在少數(shù)幾個(gè)常用功能上。例如，后視鏡調(diào)節(jié)、座椅加熱、打開后備箱等功能的語音使用率都很高，而不僅僅局限于空調(diào)、音樂等頭部效應(yīng)的功能。這種多樣化的需求分布使得語音助手在功能覆蓋方面更具挑戰(zhàn)性，同時(shí)也更加有價(jià)值。

另一個(gè)值得關(guān)注的數(shù)據(jù)是平均日活躍率。我們?nèi)栈钴S率的下限是80%，這在國內(nèi)同行中并不容易實(shí)現(xiàn)。有些同行可能會(huì)將一些不必要的主動(dòng)交互計(jì)入日活率，例如上車時(shí)的問候語等。而我們定義的日活率是必須基于用戶主動(dòng)喚醒語音助手執(zhí)行任務(wù)的場(chǎng)景。這意味著每天有80%的車輛在行駛過程中主動(dòng)使用了語音助手來完成各種任務(wù)。同時(shí)，每輛車平均使用有效指令的下限是10次，這些指令涵蓋了從空調(diào)調(diào)節(jié)、座椅調(diào)整到音樂播放等各種功能。

想象一下，駕駛員每天駕駛車輛的時(shí)間大約為2小時(shí)，其中來回各占1小時(shí)。在這段時(shí)間里，駕駛員需要處理許多與駕駛相關(guān)的任務(wù)，如調(diào)節(jié)空調(diào)、座椅等。而我們的語音助手能夠協(xié)助完成十項(xiàng)任務(wù)，這意味著它為駕駛員節(jié)省了大量的時(shí)間和精力。

大模型的三大特點(diǎn)——通才、專業(yè)和自然

從使用者的角度，大模型具備三大特點(diǎn)：通才、專業(yè)和自然。

首先，通才。GPT采用全社會(huì)的語料學(xué)習(xí)，這意味著它在知識(shí)的廣度上具有顯著優(yōu)勢(shì)。它知道的內(nèi)容涵蓋了各個(gè)方面，無論是娛樂、教育還是專業(yè)領(lǐng)域的知識(shí)，都能夠給予較為準(zhǔn)確的回應(yīng)。

其次，專業(yè)。大模型在覆蓋面很廣的情況下，也能夠在每個(gè)領(lǐng)域表現(xiàn)出深刻理解。目前，GPT3.5已經(jīng)可以看作是一個(gè)全科畢業(yè)生，具備扎實(shí)的基礎(chǔ)知識(shí)。而當(dāng)GPT發(fā)展到4.0、5.0等更高版本時(shí)，它將成為全科博士畢業(yè)生，知識(shí)水平和理解能力將達(dá)到新的高度。我了解到，今年年底Open AI將推出GPT4.5，我們有望見證更為震撼的表現(xiàn)。

最后，自然。大模型的交流方式非常自然，就像人與人之間的對(duì)話一樣。使用者不需要采用特殊的專業(yè)術(shù)語與模型溝通，只需使用日常語言即可。這種自然的交流方式使得大模型在各個(gè)領(lǐng)域的應(yīng)用更加廣泛，不僅限于AI領(lǐng)域。

對(duì)于2C和2B兩個(gè)領(lǐng)域來說，大模型的影響和價(jià)值是顯而易見的。

從C的角度來看，大模型能夠帶來個(gè)性化體驗(yàn)。例如，現(xiàn)在市面上有一些創(chuàng)業(yè)公司利用大模型為用戶生成個(gè)性化的職業(yè)照、證件照或頭像等。這些服務(wù)都與個(gè)性化息息相關(guān)，滿足了用戶對(duì)于獨(dú)特性和定制化的需求。

此外，大模型在工具類應(yīng)用中也表現(xiàn)出色。例如，微軟推出的Copilot工具可以幫助用戶更高效地使用復(fù)雜的軟件，如Office和幻燈片等。這種工具類應(yīng)用能夠大大提高用戶的生產(chǎn)力和效率，使工作變得更加便捷和高效。

在B端領(lǐng)域，大模型的作用更加突出。它就像電力一樣，為生產(chǎn)和生活帶來了效率的大幅提升。例如，在文本創(chuàng)作方面，大模型可以自動(dòng)生成文章、摘要等文本內(nèi)容，大大減輕了寫作者的負(fù)擔(dān)。在視頻生成方面，大模型可以根據(jù)給定的劇本或小視頻片段自動(dòng)生成后續(xù)內(nèi)容，極大地提高了視頻創(chuàng)作的效率。

圖源：演講嘉賓素材

此外，大模型在編程和報(bào)表能力方面也表現(xiàn)出色。對(duì)于企業(yè)而言，報(bào)表的生成是一項(xiàng)重要的任務(wù)。而有了大模型的支持，報(bào)表的生成將變得更加高效和準(zhǔn)確。這不僅可以提高企業(yè)的運(yùn)營效率，還可以為企業(yè)決策提供更加可靠的數(shù)據(jù)支持。

接下來，我將對(duì)大模型的現(xiàn)狀進(jìn)行簡(jiǎn)要的探討。自2022年大模型推出以來，目前仍處于萌芽期。然而，何時(shí)結(jié)束這一階段，我暫時(shí)無法給出明確的答案。但我認(rèn)為，一個(gè)重要的標(biāo)志是當(dāng)具有強(qiáng)烈感知能力的智能場(chǎng)景落地時(shí)，這一階段才算告一段落。尤其需要注意的是與車輛緊密相關(guān)的智能場(chǎng)景。

大模型上車現(xiàn)狀

目前，國內(nèi)在大模型上車方面呈現(xiàn)出三個(gè)顯著特點(diǎn)：

第一，以功能移植為主。簡(jiǎn)單將手機(jī)或電腦上的大模型直接移植到車上，而不考慮其與車輛的契合度。

第二，以PR宣傳為主。企業(yè)過度強(qiáng)調(diào)自己在車輛上應(yīng)用了大模型，而忽略了實(shí)際的應(yīng)用效果和用戶體驗(yàn)。

第三，與車輛功能的結(jié)合較少。大部分已上車的大模型應(yīng)用與車輛的實(shí)際功能并無太大關(guān)聯(lián)，如娛樂八卦、天文地理、歷史知識(shí)、情感聊天、兒童教育、成語故事等。雖然這些內(nèi)容對(duì)于豐富駕駛體驗(yàn)有一定作用，但它們與車輛的核心功能并無直接關(guān)聯(lián)。

現(xiàn)在整個(gè)行業(yè)都面臨著降本增效的壓力，資源有限。因此，企業(yè)要更加聚焦于真正與車輛功能相關(guān)的應(yīng)用場(chǎng)景，而不是過度追求PR效果。

我們對(duì)大模型的思考

首先，大模型可以作為內(nèi)部工具，提高工作效率。比如在語音團(tuán)隊(duì)中，我們有很多數(shù)據(jù)相關(guān)的工作，如準(zhǔn)備語料、數(shù)據(jù)增強(qiáng)等。而有了大模型后，這些工作變得異常輕松，大大提高了數(shù)據(jù)生成的質(zhì)量和效率。

再者，大模型還可以用于多語種翻譯。隨著車企的全球化戰(zhàn)略加速，多語言支持變得尤為重要。像我們公司即將進(jìn)軍泰國市場(chǎng)，我們需要泰語的語料支持。而大模型可以幫助我們快速、準(zhǔn)確地完成翻譯工作。

其次，大模型還可以應(yīng)用于自動(dòng)化標(biāo)注和自動(dòng)化評(píng)價(jià)等方面。例如，我們可以通過大模型對(duì)語音評(píng)價(jià)系統(tǒng)進(jìn)行優(yōu)化，讓它更好地完成用戶的任務(wù)。我們將用戶的埋點(diǎn)信息和上下文信息提供給大模型，讓它判斷任務(wù)是否完成。

最后，由于用戶的所有語音指令都會(huì)被記錄在日志中，我們可以通過大模型對(duì)這些日志進(jìn)行分析，挖掘出用戶的意圖和需求。例如，用戶可能希望通過語音調(diào)節(jié)氛圍燈，但我們的車型并未提供這一功能。通過大模型的分析，我們可以發(fā)現(xiàn)這一需求，進(jìn)而考慮是否需要加入這一功能。

圖源：演講嘉賓素材

對(duì)于在C端的應(yīng)用，我認(rèn)為目前還處于萌芽期。而結(jié)束這一階段的一個(gè)重要標(biāo)志將是與車輛相契合的智能場(chǎng)景落地。進(jìn)入探索期后，我們應(yīng)該重點(diǎn)關(guān)注語音功能與車場(chǎng)景和智能駕駛的深度融合，借助大模型使語音助手真正進(jìn)入成長期。

從座艙的角度來看，希望大模型能夠助力我們實(shí)現(xiàn)全車的語音可控、全生態(tài)的語音融合以及全車機(jī)的語音支持。沒有大模型的幫助雖然也可以實(shí)現(xiàn)這些功能，但成本和效率將無法得到有效控制。而大模型的最大優(yōu)勢(shì)正是降本增效，這與當(dāng)前行業(yè)的核心需求高度契合。

在智能駕駛方面，語音與智能駕駛的結(jié)合已經(jīng)開始顯現(xiàn)，但還處于初級(jí)階段。這主要是因?yàn)橹悄荞{駛尚未普及，因此沒有太多精力去考慮與語音的結(jié)合。但隨著智能駕駛的逐步普及，這種結(jié)合將變得更加緊密。例如，在自動(dòng)駕駛過程中，用戶可能因?yàn)樘厥庑枨蠖a(chǎn)生的臨時(shí)干預(yù)路線或請(qǐng)求停車等操作，而這些都可以通過語音指令實(shí)現(xiàn)。大模型能夠?qū)④囕v、道路和人的信息整合在一起，從而提供更加智能化的服務(wù)。

隨著大模型和語音助手的不斷滲透，當(dāng)整個(gè)汽車行業(yè)的智能化水平達(dá)到一定高度時(shí)，我們將進(jìn)入主推的成長期。在這個(gè)階段，車輛能夠接收和處理的信息將大大增加，大模型的多模態(tài)輸入功能將得到充分應(yīng)用。這些信息包括車輛自身的傳感器信息、道路導(dǎo)航軟件提供的POI信息以及車外攝像頭捕捉到的圖像信息等。

圖源：演講嘉賓素材

通過將這些信息輸入到大模型中，我們可以獲得一個(gè)類似于“車大腦”的功能。這個(gè)“車大腦”將主動(dòng)執(zhí)行最適合用戶的操作，包括車窗、空調(diào)、座椅、天窗、雨刷、車鎖等功能的調(diào)節(jié)。它能夠根據(jù)用戶的歷史信息和多模態(tài)輸入信息來做出最適合用戶的決策。例如，在駕駛過程中，用戶可以根據(jù)自己的需求選擇不同的駕駛模式，而“車大腦”將根據(jù)用戶的選擇主動(dòng)執(zhí)行相應(yīng)的操作。

總之，大模型在汽車行業(yè)的應(yīng)用前景廣闊，尤其是在語音系統(tǒng)方面，從而為用戶提供更加智能化、個(gè)性化的服務(wù)。相信隨著技術(shù)的不斷進(jìn)步和發(fā)展，大模型將在汽車行業(yè)中發(fā)揮越來越重要的作用，為人類帶來更加智能、便捷的出行體驗(yàn)。

（以上內(nèi)容來自合眾新能源汽車股份有限公司軟件開發(fā)總工程師蔡勇于2023年12月12日-13日在2023第五屆智能座艙與用戶體驗(yàn)大會(huì)發(fā)表的《大模型賦能的智能語音交互》主題演講。）

相關(guān)閱讀更多相關(guān)閱讀

哪吒V進(jìn)入車系

指導(dǎo)價(jià)：5.99-7.59萬元
級(jí)　別：微型車
排　量：40 55
變速箱：31.18kWh 38.54kWh

哪吒V 商家快訊更多

亚洲中文无码人成网站|国产精品自在自线视频|亚洲欧美人高清精品a∨|日本中文一二区高清在线|国内精品亚洲视频欧美在线|久久亚洲欧美综合激情一区|国产精品久久久天天影视香蕉|国产大屁股精品无码视频免费区

合眾新能源汽車：大模型上車成為“車大腦”，如何賦能智能語音交互？

合眾新能源汽車：大模型上車成為“車大腦”，如何賦能智能語音交互？