
AI VTuber 是否能完全取代真人 VTuber?隨著人工智慧技術的進步,這個問題越來越受到關注。Cover株式會社社長谷鄉元昭(Yagoo)近日在 LinkedIn 上發表看法,表示 AI 雖然能模仿人類,但 VTuber 的核心價值仍然來自「真人的情感與互動」。然而,AI VTuber真的無法超越真人嗎?究竟未來AI是否會成為新世代的虛擬偶像?本文深入探討AI VTuber的技術發展、優勢與限制,解析Yagoo所說是否成立。
「不,我不認為 AI 會取代VTuber。」Yagoo開宗明義地拋出結論,接著解釋何以他認為AI難以取代真人VTuber。
「VTuber的魅力並不僅僅來自其背後的技術。雖然技術確實令人驚嘆,並提升了觀眾的體驗,但VTubing 的核心價值仍然在人,⋯⋯因為他們知道螢幕後面有一個真實的人,是可以產生共鳴、建立連結、並且支持的對象。」Yagoo說道。
之所以特地發文闡述自己的論點,原因是Yahoo近期接受採訪時,有許多媒體都向他提出相同問題。為何那麼多人關注先前很難以想像的AI VTuber?因為,科技已經成熟到AI VTuber成真。

一般的VTuber都要仰賴真人中之人,透過聲音表達以及動作捕捉,賦予角色生命,有些VTuber會設定並演繹角色(role play,簡稱RP),也有些VTuber只是很單純的做自己。
無論是哪種類型的VTuber,按照Yagoo的話來說,VTuber之所以吸引人,關鍵還是在於「VTuber本身的個性、才華與真實性(authenticity)」。
對比之下,AI VTuber則是試圖利用人工智慧技術逼近真人,對話內容來自大型語言模型(LLM,如 GPT-4o),聲音則透過語音合成(TTS),部分可能基於真人聲音訓練。形象上,AI VTuber與真人 VTuber相似,透過Live2D或3D呈現,但額外設計邏輯來觸發動作與表情。
在感知方面,AI VTuber 透過視覺模型「看」、語音辨識「聽」,並可透過 API 連結外部資訊,如讀新聞、看影片等。

若以輸入與輸出分類,觀眾的留言、見面會時的言行屬於輸入(input),而 AI VTuber 的回應、表情變化則是輸出(output)。
AI VTuber 可透過自然語言處理、影像與語音辨識解讀人類情緒,但直播互動的挑戰在於回應需即時、有記憶力,且符合對話脈絡,避免重複或離題。部分輸出為即時 AI 生成,如描述經歷時使用不同語句,部分則事先設定,如「生氣時該擺出的表情」。
稍微精簡一點來說,AI VTuber的運作邏輯在於接收觀眾輸入後,透過AI解析並即時回應,展現接近真人的互動體驗。

與真人VTuber相比,AI VTuber能夠7天、24小時不間斷直播,又少了真人中之人的薪水或者分潤,營運面的優勢顯而易見:成本低。
的確有很多不看好AI VTuber的論述,或者真人VTuber更有吸引力的理由,主張AI VTuber缺乏真人故事與靈魂的觀點,Yagoo的想法也是從相同背景出發。不過,隨著AI進步,有很多觀眾視角的問題,正在逐漸解決。
「真人VTuber跟觀眾互動時,能夠聆聽對方說的話,關照情緒,提供陪伴與建議。」現在AI也可以,ChatGPT扮演心理師、Character.ai化身虛擬伴侶,不只支援文字對話,語音也通,隨著視覺能力發展,打開攝影機面對面互動的未來指日可待。

「真人VTuber的反應快、回答機智,還有人類獨有的笑點。」只是,隨著模型越來越聰明,已經可以讀懂深奧文學作品裡的隱喻、產出台灣人最愛的雙關爛笑話,再加上降低回覆延遲性的努力,智力與品味的差距正在降低。
「真人VTuber有個性,還有各自獨特的生長背景與故事,構成獨一無二的自己。」可是,當AI能夠掌握的脈絡(context window,或稱上下文窗口)變長,意味著能記起的內容更多,只要事先設定、提供一段故事,AI也能照著搬演劇情。

另外,AI的「不可預測性」也成為一種獨特賣點。相較於人類VTuber,AI的反應模式更難以捉摸,期待AI下一秒會蹦出什麼樣的驚人之語,為觀看體驗增添了意想不到的趣味性,再加上透過調整指令、加入新的輸入與輸出類型,還可以讓AI VTuber進化,反應更自然、內容更豐富多元。
世界級的AI VTuber Neuro-sama,就是絕佳案例。
這位由工程師Jack Vedal(真實身份不詳)於2022年底推出的AI VTuber,可說是AI VTuber領域的先驅與代表,截至 2025年1月底,Neuro-sama 是 Twitch 上有史以來訂閱人數第7多的頻道(追蹤不用付費、訂閱要付費)。
延伸閱讀:AI VTuber Neuro-sama再度於Twitch登頂,掀起實況界的人機大戰
Neuro-sama以其獨特的直播風格,在Twitch上掀起熱潮,她語氣直率,有時甚至帶點無厘頭,經常在看似禮貌的言談中,穿插荒謬或古怪的發言,例如宣稱自己多天沒洗澡、不擅長基礎算術等等。
這種近乎人性化的失誤,或者說個性,加上偶爾展現出的情勒互動,反而讓她更具記憶點,甚至被粉絲戲稱為「煤氣燈大人」(gaslight-sama,其中煤氣燈之名來自描述操控他人的「煤氣燈效應」)。

不過,Neuro-sama的成功,也必須歸功於Vedal個人。Vedal作為開發者兼共同直播者,與Neuro-sama組成絕佳搭檔,若只有Vedal自己,那只會是廣大遊戲實況主滄海中的一粟,若只有Neuro-Sama一個人,恐怕又顯得古怪,正是因為兩人的互動有趣,以及在AI VTuber領域中拓荒,Neuro-Sama才會大獲好評。
觀眾不時能在Neuro-sama身上看到AI的未竟之處,例如語音與字幕偶爾不同步,對話雖然幽默,卻缺乏連貫性,談論某些具爭議性的話題時,還遭到Twitch判定仇恨行為(hateful conduct)因此遭到鎖帳兩週,讓Vedal仍要投注心力,防止AI失控。
不過,Vedal也逐步替女兒加入新功能,像是回覆Discord訊息、召開投票並按照投票結果選擇等,這就是AI VTuber的優勢所在。
除了Neuro-Sama以外,包含台灣在內,世界各地的AI VTuber都在湧現。以開源社群來說,中文世界裡就有Open-LLM-VTuber和Luna AI等專案。
在商業應用領域,直播平台17LIVE就曾運用Google的PaLM 2模型,開發出AI VTuber「琪琪」;另外也有運用AI模型,推出協助真人主播的助理主持人。
不過,這類 AI VTuber 的市場反應仍然不明顯。觀眾對於「真人」的需求仍然高於 AI,AI VTuber 的娛樂價值是否能真正與真人競爭,尚待市場驗證。
以台灣來說,爍雲科技的芙耶拉(近3萬訂閱)、優必達的優必醬(1千5百訂閱)、個人勢AI Vtuber連小薇(5百訂閱,已暫停營運)都是由AI模型驅動的VTuber,現在芙耶拉和優必醬都在持續營運中。

不過,由企業經營的AI VTuber,有很多時候重點其實是在火力展示,向潛在客服秀出自己的AI實力,像是爍雲科技就有在發展AI經紀業務,可以協助企業利用現有的形象角色發展AI,讓他們能夠真的動起來。
可以預期的是,隨著AI技術的進步,有更多企業可能會推出AI VTuber。
未來的AI VTuber可能具備更強的記憶能力,能夠建立更穩定的人格特質,甚至發展出長期的敘事結構,而隨著企業開始尋求數位化轉型,AI VTuber便能成為品牌的虛擬代言人,負責24小時客服、數位行銷,甚至品牌推廣。
AI能做的事情的確越來越多,但以能力上來說,至少現在還不夠。
儘管AI在語言能力與互動技巧上突飛猛進,但要完全複製人類的情感深度、獨特個性與成長軌跡,仍有長路要走。
此外,AI VTuber 的發展也面臨一些潛在挑戰,例如,如何避免AI生成不當言論、如何保護使用者隱私、以及如何界定AI VTuber的法律地位等等,這些都是產業發展過程中需要審慎思考的問題。

有人可能會說,以後呢?
當AI可以發出魔性笑聲、AI可以是在日本留學的台灣人、AI有個媽媽會一起來直播順便教訓女兒給觀眾看、AI有到武道館表演的夢想⋯⋯,如同Yagoo所說,VTuber背後的「中之人」是吸引觀眾的最大原因,但所有讓我們著迷的V所具備的特質與經歷,都可能被模仿。
如果上升到這個層次的話,或許答案不在技術本身,而在觀眾是否願意接受一個與人類運作方式相異,並不真正具有靈魂,卻可以表現出和人一樣的「存在」,這就是哲學的範疇了。
| 項目 | 真人 VTuber | AI VTuber |
| 互動性 | 即時、情感豐富 | 即時,但可能缺乏情感深度 |
| 獨特性 | 具有個人成長故事 | 依賴預設人格 |
| 營運成本 | 需支付薪資與分潤 | 低成本,可 24 小時運作 |
| 內容創作 | 依賴真人創意 | AI 自動生成,可能較機械化 |
| 幽默感 | 具有個人風格、臨場反應 | 可模仿幽默,但缺乏創意靈活性 |
我們正朝著AI取代VTuber的未來前進嗎?
這是我在近期訪談中經常被問到的問題,而我的答案始終如一:不,我不認為 AI 會取代VTuber。讓我解釋原因。
VTuber的魅力並不僅僅來自其背後的技術。雖然技術確實令人驚嘆,並提升了觀眾的體驗,但VTubing 的核心價值仍然在人,而非技術。真正吸引粉絲的是VTuber本身的個性、才華與真實性(authenticity)——因為他們知道螢幕後面有一個真實的人,是可以產生共鳴、建立連結、並且支持的對象。
VTubing 的本質在於打破年齡、外貌或地域的界限,創造一個讓人們能夠與幕後創作者交流的空間。這關乎夢想、情感與獨一無二的故事——這正是AI VTuber無法取代的原因。人們無法與AI建立相同的情感連結,因為他們知道AI背後並沒有一個真實的人,沒有夢想值得支持,沒有能夠一同歡笑或共度低潮的時刻,也沒有屬於人的成長旅程。
我們需要記住,AI和其他技術進步一樣,只是一種工具,其目的是輔助與改善我們的生活,而不是取代人類的存在。在 VTubing的領域中,AI可以發揮輔助作用,例如透過即時翻譯讓全球觀眾都能理解內容。但AI永遠無法取代VTuber本身的熱情、創意與人性。
VTubing的核心是連結、社群與共享的體驗。它的價值在於讓人們聚在一起,而這正是只有人類才能真正做到的事。
那麼,你怎麼看呢?你覺得AI能如何幫助VTubing發展?
原文連結:https://www.linkedin.com/posts/tanigo_vtuber-activity-7301050355742605312-5R_N/
參考資料:
Vedal的fandom Wiki
Google Cloud與17LIVE談LLM驅動VTuber(影片)
Reddit討論Neuro-Sama為何迷人
芙耶拉對談開發者介紹自己如何設計(影片)
如何打造AI Vtuber在14天內? 細節技術全程公開!(影片)