综合介绍
tldraw computer 是 tldraw 推出的一个实验性项目,旨在提供一个无限画布,用于自然语言计算。用户可以创建和连接组件,生成和转换数据,利用多模态语言模型作为运行时执行指令。该平台允许用户通过简单的操作创建复杂的工作流,适用于各种数据处理和生成任务。
一直在思考一个问题,面向C端用户编排智能体流程的产品应该是什么形态,扣子、DIFY其实门槛并不低,主要还是面向开发者和专业内容创作者。这次 tldraw 给出了新的方向。虽然画布链接组件关于复杂的上下文依赖还有一些不透明的逻辑,或者说缺陷,但面向C端用户足够了。
有类似特点的工作流编排工具(但输入输出逻辑都不相同):
Glif:无代码编排AI工作流,输出模板化图像和HTML,免费不限量使用Flux1.1pro
Takomo.ai:无代码AI应用构建平台,通过画布拖拽构建多模态工作流
Refly:基于自由画布上流程编排的AI写作平台,自动化生成文章
功能列表
- 无限画布:提供一个无限扩展的画布,用户可以自由添加和连接组件。
- 组件创建:用户可以创建各种功能组件,用于数据生成和转换。
- 工作流管理:支持创建、编辑和管理复杂的工作流,包含分支和循环。
- 多模态语言模型:利用先进的多模态语言模型执行自然语言指令。
- 示例项目:提供预构建的示例项目,用户可以快速上手并进行自定义。
使用帮助
安装和注册
- 访问 https://computer.tldraw.com/。
- 点击“Get started”按钮,进入注册页面。
- 使用 Google 账号或邮箱地址注册新账号,或使用已有账号登录。
创建和使用组件
- 登录后,进入无限画布界面。
- 点击“Create component”按钮,选择组件类型并进行配置。
- 将组件拖放到画布上,使用连接线将组件连接起来,形成工作流。
- 点击组件,输入自然语言指令,利用多模态语言模型执行指令。
管理工作流
- 在画布上创建多个组件,并通过连接线形成工作流。
- 使用右键菜单或工具栏对工作流进行编辑,包括添加分支和循环。
- 保存工作流,系统会自动生成一个项目,用户可以随时编辑和运行。
示例项目
- 在首页点击“Examples”按钮,选择一个预构建的示例项目。
- 示例项目包括故事生成器、排序机、战斗模拟器等,用户可以直接运行或进行自定义。
- 编辑示例项目,保存为自己的项目,进行进一步的修改和优化。
Gemini 助力 tldraw 的“自然语言计算”体验
利用 Gemini API 解锁自然语言交互
Gemini API 让开发者可以轻松将高级 AI 功能集成到他们的应用中,为用户体验和功能性打开了新的可能性。本文重点介绍了 tldraw 如何利用 Gemini 构建其新项目 computer 中革命性的“自然语言计算”体验。这展示了初创企业如何通过 Gemini API 和 tldraw 的 canvas SDK 快速且简便地集成强大的 AI 功能。tldraw 团队即将推出使用 Gemini 1.5 Flash 的 computer,并正在为未来版本使用 Gemini 2.0 Flash 进行原型设计。
tldraw 使用 Gemini API 将对话式 AI 的力量带入可视化编程,允许用户通过自然语言生成内容和处理信息。这为围绕 AI 的更直观、高效的用户体验开辟了令人兴奋的机会,推动了视觉交流的边界。
Computer 背后的愿景
tldraw 致力于让图表创建变得易于访问且直观,其愿景是为用户提供一种更自然的方式与其画布交互。创始人 Steve Ruiz 希望利用 tldraw 的无限画布 SDK 的强大功能,创建一个结合生成式 AI 的动态工作环境。这一愿景促成了 computer 的开发,这是一款实验性应用,用户可以通过文本、图像和指令的模块创建工作流程。运行时,信息从一个组件流向下一个,每一代的输出作为下一代的输入,形成强大的流程,可以分支、循环和迭代以生成结果。
使用 Gemini 2.0 构建:深入探讨 Computer
tldraw 的 computer 构建于一组互连的“组件”网络之上,代表画布上的元素(文本框、图像、音频片段等)。这些组件通过箭头连接,可视化数据和转换的流向。每个组件都具有相关的“过程”,即基于来自连接组件的输入执行的一组指令。一个组件可以接受来自多个其他组件的数据,并将其输出数据传递给许多其他组件——甚至是自身!这种基于组件的架构结合 Gemini 2.0 Flash 的强大功能和速度,构建了一个快速灵活的系统,能够处理多样化的任务。
tldraw 的 computer 结合了基于文本生成的 AI 可视化编程(使用 Gemini 2.0)和图像生成模型。
以下是 Gemini 2.0 Flash 原型设计的助力表现:
- 闪电般快速的过程执行:Gemini 2.0 Flash 可以快速执行过程。例如,“指令”组件可能包含“撰写一段简短广告词”。在被触发后,组件会在瞬间生成一组可重复使用的步骤脚本,可以将任何输入组合转化为广告词脚本。然后,组件会结合其当前输入(例如,“文本”组件中的“为猫设计的新 AI 智能手套”)生成一个最终输出的提示,并将此输出传递给另一个链接的“文本”组件以供展示,或者传递给其他连接组件,例如“语音”(用于文本转语音)、“图像”(用于视觉生成)或其他“指令”组件以进行进一步转换。
- 丰富的上下文与多种模式:tldraw 的 computer 的最大化特性需要速度、容量和能力。通过多个组件为每次生成提供数据,Gemini 2.0 Flash 的大上下文窗口对考虑所有输入并生成输出至关重要,同时其支持图像和文件与文本提示结合。
- 结构化数据:组件间的数据流动必须遵循统一的模式。Gemini 2.0 Flash 的结构化 JSON 输出确保了工作流中的每个组件都可以识别任何类型的数据,并以相同的结构生成输出,防止停滞、优化执行,并确保即使是大型工作流也能可靠完成。
- 动态过程生成:除了执行预定义过程,Gemini 2.0 Flash 还可以动态生成过程。用户可以输入“根据此产品描述创建一个营销活动”,Gemini 2.0 Flash 会生成所需步骤(过程)和组件,基于用户的高级请求在画布上构建一个工作流。这种动态生成为创新用户体验和精简工作流带来了巨大的潜力。
创新中的快速胜利
tldraw 快速实现 computer 的过程凸显了 Gemini 对初创企业的价值:快速原型设计,通过直观的自然语言接口增强用户体验,以及借助 Gemini 2.0 Flash 等模型高效处理结构化数据。这种结合使小型团队能够快速且经济高效地创建创新的 AI 功能。
“我们希望展示任何团队都可以使用 tldraw 的画布 SDK 构建雄心勃勃的项目。Gemini Flash 是一个非常适合快速、多模态、基于画布的工作流工具的引擎。凭借 Gemini 2.0,以及一个更好的名字,我确信我们可以将 computer 作为一家独立初创企业推出。”
—— Steve Ruiz,tldraw 创始人