
2025 年的硅谷,正在迎来新一轮由生成式 AI 驱动的创业潮。与过去由大型科技公司主导的格局不同,这一次的主角,更多来自年轻的学生创始人。教育领域,也在这股浪潮中成为最活跃的实验场之一。
其中,一个名为 VideoTutor 的项目尤为引人注目。Video Tutor 诞生于加州一间大学生公寓,由 20 岁的华人大三学生 Kai Zhao(赵凯) 创立。在短短五个月内,这家初创公司就完成了 1100 万美元的种子轮融资,由 YZi Labs(赵长鹏及何一家族基金)领投。
看似一则典型的硅谷创业故事,实则透露出更深的信号。在 AI 技术重塑行业的背景下,教育的全球化创新路径,正被新一代创业者重新定义。

如果说 ChatGPT 改变了信息的获取方式,那么 VideoTutor 想改变的,是学习的理解方式。
在过去十年,教育科技公司层出不穷,但多数产品仍困在「作业解答」的低维度循环里。学生拍一道题,AI 给出答案问题就解掉了,学习却没有发生。赵凯认为,这类工具的链路太短,缺乏真正的学习闭环。
VideoTutor 想做的是「主动学习」的另一端。它面向美国的 K-12 学生,尤其是 SAT 和 AP 备考人群。用户输入一个问题或拍下题目,系统会在几秒钟内生成一个讲解视频:有黑板、有动画、有语音讲解,甚至会在关键步骤插入提问和测验。
这背后的关键技术是一套自研的数学动画引擎。与普通视频生成模型不同,它能精确地渲染坐标轴、几何图形、函数曲线等理科核心元素,误差几乎为零。赵凯说:「美国高考 SAT 80% 的内容都涉及可视化概念,我们要让 AI 能像老师一样在黑板上‘写’给你看。」
在美国,线下 Tutor 的费用平均每小时 150 到 230 美元,一个暑假下来往往要花上几千美元。VideoTutor 把成本压缩到每月 69 美元,还计划推出「799 美元保分」套餐。更关键的是,它提供了全天候、无心理负担的学习体验。学生可以随时提问,不必担心被老师评判。
这种以可视化为核心的学习方式,在全球教育行业中尚属稀缺。过去,复杂的数学或物理讲解往往依赖真人老师的板书与口头表达,而现在,AI 视频可以在几秒内生成一堂标准化又生动的课。这并非「替代教师」,而是补全了传统教学难以兼顾的盲区,即让知识的呈现更加即时、可复现、可个性化。

在 VideoTutor 身上,外界最先被震撼的并非产品,而是速度。
5 月 14 日上线首版产品,在 Founder Park 产品市集首发;到 10 月底,融资 1100 万美元到账。五个月的周期,在教育赛道几乎前所未有。赵凯把原因归结为「方向正确」和「执行极快」。
他并非初次创业。大一时,他就和现任 CTO James Zhan 一起做教育 App;大二加入 MathGPTPro 团队,产品曾入选奇绩创坛。那段经历让他意识到,基于 GPT 的文本问答类教育产品已经触顶。真正的增量,必须来自视觉层面的创新。于是,他带着两位校友和一位室友,重新组队。六个人住在一起,昼夜开发,一版一版推上去。
他们定义自己为「小天才团队」。这是硅谷 VC 眼中最受欢迎的创业者类型,即年轻、理解用户、能熬夜。投资人看中的,不只是产品,还有执行力。赵凯的上一封融资邮件发出 20 天后,TS (投资意向书) 便堆满桌面。
这支团队的技术路线很明确,即让 LLM 「学会画画」。他们在云端调用 Claude 和 Gemini 模型,同时用自己的 SAT 题库和 10 万条教学视频数据进行微调。为了确保准确率,系统会让两个模型互相校对,只要答案一致,就自动过审。
在技术层面,他们已经将视频渲染延迟压缩到 5 秒以内。用户提问后,屏幕上的「AI 老师」会先停顿一句:「让我想一想」,然后擦掉黑板,重新写出新的推导过程。短短几秒,却让整个交互像真人课堂一样自然流畅。
这些细节背后,是年轻创业者对于学习场景的敏感洞察。他们深知 SAT 学生依赖 Laptop 和 Chromebook,手机端需求反而不高;他们清楚,学习内容的核心不是 UI 的华丽,而是知识渲染的精准。赵凯甚至砍掉了 App 计划,只专注网页端迭代。
这种极致聚焦的打法,正是当下硅谷新一代大学生创业者的共同特征。Cursor、Mercor、Pika、GPTZero……这一连串名字背后,是「Better done than perfect」 的文化:先上线,再打磨。AI 时代,技术以「天」为单位迭代,速度本身就是竞争力。

如果说 VideoTutor 是 AI 教育创业的新样本,其并不是孤例。近一年里,围绕「教育 Agent」这一概念的竞争正在全球范围内快速升温。
在硅谷,Notion、Perplexity 以及 Khan Academy 都在推出各自的学习 Agent。Khan Academy 的 「Khanmigo」 由 OpenAI 提供模型支持,侧重于文本式的引导式学习,能陪学生完成练习、解释概念,但仍停留在问答层面;Perplexity Edu 版本则强调信息组织,像一个会解释资料的智能检索助手。而 VideoTutor 选择的路线则更「重」。VideoTutor 让 AI 直接生成教学视频,通过可视化演示来「教会」知识本身。
这一差异其实揭示了 AI 教育 Agent 的两条主线。一条是轻模式,即快速、低成本、依赖大模型对话;另一条是重模式,即以可视化、多模态生成建立真正的学习体验。前者适合语言与文科场景,后者更擅长理科与技能训练。VideoTutor 恰恰抓住了后者的空白带,它用 AI 取代的不是「回答」,而是「讲解」。
在这样的行业背景下,VideoTutor 的「视频 Agent」 显得更具实验色彩。VideoTutor 通过动画引擎把知识结构具象化,部分解决了「看不懂」「听不进」的问题;同时在商业上采用 B+C 双线并行模式,即一边做 C 端订阅,满足个人用户的学习需求;一边开放 API 给教育机构,让 AI 讲解融入传统课堂。这种路径与 Khan Academy 等单纯面向 C 端的 Agent 不同,也比国内的题库 AI 产品更容易形成可复制的商业闭环。
从出海角度看,理科教学的可视化具有天然的跨文化普适性。VideoTutor 在美国市场验证 PMF 后,计划平移模型到 A-Level、IB 等国际考试体系,继续扩张到加拿大、英国、印度等市场。相比国内不少以题库或考试系统为主的出海产品,VideoTutor 更像是在做「认知交付」,用 AI 生成教学体验,而非单纯的题解工具。
这也折射出一个更清晰的趋势,即教育 Agent 正在成为下一代教育产品的核心形态。
教育 Agent 不再只是 App 里的一个功能模块,而是一个能与学生持续互动、动态调整教学内容的智能体系统。无论是 Khanmigo 的文本辅导,还是 VideoTutor 的可视化讲解,它们都在尝试让 AI 真正参与到教学之中。
但这场变革仍处在早期阶段。准确率、教学责任与内容审核仍是行业必须面对的问题。VideoTutor 只是众多探索者中的一个,但 VideoTutor 的出现让人看到另一种可能。AI 教育的竞争,不再是谁能解更多题,而是谁能真正教会学生。