最近科技圈有个项目讨论度很高,叫Flipbook。它的玩法很特别:整个浏览器界面都由AI实时生成的像素构成,你输入一个词,然后在页面上任意位置点击,就会在那个点生成新的图像。这个过程可以无限重复,一直点,一直生成。
连Simon Willison(Datasette创始人)、Karpathy这些业内知名人士都转发称赞“这玩意儿挺有意思”。它到底有什么魔力?我们不妨深入看看。
Flipbook 是什么?
简单来说,Flipbook是一个实验性的“AI无限视觉浏览器”。它的核心思路,是用AI实时生成的像素流,彻底取代传统的HTML、CSS和Ja vaScript来渲染网页。你可以把它想象成一本可以无限翻页、并且每一页都能根据你的点击实时变化的AI画册。
这个产品的背后团队来头不小,三位创始人分别是前OpenAI、前Apple和前Slack的工程师。项目上线不到一天,就引发了数十万人的关注和讨论。
它的官网是https://flipbook.page/。打开后,你可以在搜索框输入任何关键词,或者上传一张图片作为起点。随后,整个页面你看到的所有内容,都将由动态生成的像素构成。接下来,你点到哪里,哪里就会“生长”出新的图像,引导探索继续深入。
举个例子,输入“巴黎”,可能会生成一张巴黎的城市全景图。再点击图中的埃菲尔铁塔,画面就会聚焦,生成铁塔的近景特写。
只要愿意,你可以一直点击下去,不断深入细节。其背后的技术栈,是基于开源的DiT视频模型LTX Studio,在Modal Labs的GPU服务器上运行,再通过WebSocket将1080p、24帧的视频流直接推送到浏览器。
这与传统浏览器通过解析固定代码(HTML、CSS)来渲染网页的方式截然不同。Flipbook没有预定义的布局或结构,每一次交互都是实时生成。当然,其信息的准确性大致相当于当前主流的AI聊天模型(如ChatGPT、Gemini),偶尔会出现不准确或渲染瑕疵,但这并不影响它展示出一种全新的可能性。
经过一番深度体验,我们梳理出了它最具潜力的几个应用场景。
五大实用场景
01 旅行规划
官方将旅行规划列为首要场景,这确实是最能直观体现其价值的方向。想象一下,在规划一次三亚之旅时,传统做法是翻阅大量攻略、图片和地图。而在Flipbook里,只需输入“7 days in 三亚”,等待大约20秒,一张完整的三亚行程视觉图便跃然屏上。图中不仅标注了每日路线、景点位置,还配有示意地图,宛如一份精心设计的动态旅行手册。
点击图中的“南山观音”景点,画面会立即切换为该景点的近景渲染图,同时附上路线指引和周边美食推荐。
继续点击推荐的食物,又会获得关于这道菜的更详细介绍。
与传统静态的图文攻略相比,这种体验的趣味性和沉浸感强了不止一个量级。它不再是单向的信息展示,而是一张可以任你探索的“活地图”,每个角落都潜藏着可被点开的细节。
02 美食探索
这个场景在实际测试中带来了不少惊喜。搜索“成都小吃”,Flipbook生成了一张包含麻婆豆腐、担担面、辣椒等元素的视觉美食地图。点击“辣椒”区域,画面会聚焦,展示花椒、辣椒的特写,并附带它们的介绍和常用制作方式。
再点击旁边的“冰粉”区域,则会深入展示冰粉的组成食材,以及每一种食材的说明。
探索还可以更具体。例如搜索“广式早茶”,生成了一桌精致的点心,虾饺、烧麦、叉烧包一应俱全,甚至还有特色的倒茶手势图示。
点击手势区域,便能看到关于斟茶、敬茶等具体手势的分解图,以及每个手势的应用场景和文化介绍。
这种体验特别适合临时需要快速了解一个地方风土人情和饮食文化的场景,比如明天出差去广州。你不再需要在大众点评、小红书和百科页面之间反复跳转,所有相关的视觉信息和知识都融合在一张可以无限交互的图谱里。
03 产品研究
对于想快速了解一个陌生领域或复杂产品的工作原理,Flipbook提供了生动直观的途径。输入“how a nuclear reactor works”,它会生成一张核电站的全景图,并配以工作原理的流程解剖图,详细标注各个核心部件的名称和功能。
点击图中的某个部件,比如反应堆核心,画面会进一步深入,展示其内部结构和工作机制的动态解析,仿佛进行了一次虚拟的实地参观。
这个能力同样可以应用到更生活化的场景。比如搜索“如何制作酸面团面包”,Flipbook会生成从培养天然酵种到烘烤成品的完整流程图。
点击“酵种培养”步骤,它会展示酸面团酵种在不同发酵时期的状态对比、气泡结构说明,并标注最佳的温度、湿度、配比和时间节点。
你甚至能看到一块完美酸面包的内部组织应该是什么样子,气孔如何分布,以及发酵不足或过度分别是什么状态。
这种视觉化、可交互的学习方式,比阅读任何一本静态的食谱或说明书都要有趣和高效。
04 学习知识
这个场景让人不禁感叹,如今的学习工具正在发生翻天覆地的变化。输入“动物世界”,Flipbook会生成一幅涵盖陆地、海洋、天空的动物生态全景图。继续点击任何一类动物,都会展开更详细的分类和介绍。
这就像一本云端的“点读百科”。未来的儿童或许不再需要堆积如山的纸质科普书,如果后续能加上音效和语音讲解,其吸引力无疑会更强。
当然,它不只适用于儿童教育。输入“法国大革命”,生成的结果中包含了巴士底狱、断头台等关键场景。点击任一场景,都会获得该事件的详细图文解释,并附带关键人物和事件节点的说明。
Flipbook最独特的体验在于,你永远不知道下一次点击会带你深入到何种程度,但它总能提供新的内容接住你的好奇心,形成一种引人入胜的探索循环。目前,其对中文内容的渲染和理解还存在一些瑕疵,但方向已经足够清晰。
05 创意探索与娱乐
使用Flipbook时,一个强烈的感受是:它的创意激发能力非常突出。这对于设计师、创作者或任何需要寻找灵感的人来说,是一个绝佳的工具。当你没有头绪时,可以随意输入一个天马行空的概念,看看AI会如何将其视觉化。
虽然生成的内容偶尔会出现“幻觉”(即不符合事实或逻辑的想象),但这些出人意料的视觉组合本身,就能成为头脑风暴的催化剂。AI负责提供视觉可能性,而人类负责注入灵魂和判断。
一些心得
必须承认,Flipbook目前仍是一个实验性产品。它的生成速度有时较慢,也存在AI模型固有的“幻觉”问题。然而,这些技术上的不完美,恰恰反衬出它所指向的那个未来非常有趣且充满创新。
我们今天已经习以为常的交互界面——文本框、按钮、表单——是过去二十年互联网基建的成果。而Flipbook似乎在尝试跳过这一层,它暗示了一种可能性:未来的交互界面,可能根本不需要“界面”本身。
在AI时代,数字产品有机会像真实世界一样丰富、灵活且直观。工具不应再要求用户去适应其复杂的逻辑和结构,而是应该反过来,无缝地适应人类最自然的思维和探索模式。
可以预见,随着底层模型变得越来越精准、越来越能保持连贯的“状态”,这类应用能处理的任务将越来越复杂。今天,我们用Flipbook研究旅行规划后,可能还需要跳转到其他App去订票、订酒店。但在不远的将来,或许在同一个沉浸式的视觉流中,就能完成从灵感激发到决策执行的全流程。
历史经验表明,在新的范式转移发生之初,最先看见并理解其潜力的人,往往能获得显著的优势。Flipbook或许就是这样一个值得关注的信号。
