本周回顾：2024年初是AI领域初足够震撼的一周

这是一篇之前被遗漏的报道：本周，Nvidia的市值超越了亚马逊和谷歌的母公司Alphabet，跃升为世界第三高价值公司，市值达到惊人的1.83万亿美元。有一个趣事是：Nvidia最近一次市值超过亚马逊还要追溯到2002年。🤯 AI的崛起是多么震撼人心啊！

现在，让我们来看看一些重头戏。

OpenAI彻底改变了视频制作领域

就在不到一年前，基于AI的文本生成视频技术还异常糟糕（还记得那个威尔·史密斯视频吗？）。但就在昨天，OpenAI发布了其首个视频生成模型Sora，仅仅一天时间就颠覆了公众对AI视频的认知。

简单来说：Sora是一款能根据文本提示制作长达60秒视频的AI模型，它是在OpenAI之前的DALL-E和GPT模型研究基础上开发的扩散模型。

特别之处在哪里？Sora能创造出极度逼真的高质量场景，视频长度是现有视频生成器的十倍还要多。它能够精准考虑到各种细节，并且了解这些细节在真实世界中的存在方式。

但还有更多：它还能生成图片（Midjourney要小心了），根据图片生成视频，用文本提示编辑视频，合并两个视频，甚至创造无限循环。

有何不足之处？真正能使用的时候还需等待。OpenAI发布了这一模型，虽说是为了“研究目的”（或者说是为了营造热度），但仍需等待一个安全评估团队完成风险评估工作。

OpenAI也承认模型存在不足：Sora在捕捉空间细节与物理规律方面有时会出现问题。有时它会产生完全不合逻辑的结果，例如生成一个在跑步机上倒着跑的慢跑者的视频。

尝试一下：虽然我们现在还没办法直接体验Sora，但你可以在OpenAI的研究论文中体验视频生成模拟器。或者，你可以加入那些在X平台上不断向Sam Altman发送提示请求的人群，尝试把玩这项技术（这里有个人的一个最爱的例子）。

从细节到整体：OpenAI在AI视频方面的突破简直令人瞠目，仅仅一年的时间就取得了如此进步，谁能想象到2025年视频生成技术将达到何种高度？

谷歌推出升级版Gemini 1.5

Gemini 1.5 Pro演示了通过分析402页的笔录进行推理

谷歌推出了更为强大的Gemini Ultra一周之后，公司随即推出了设定新标准的多模型Gemini 1.5。

它是如何工作的呢？Gemini 1.5之所以如此高效，归功于它采用的专家混合架构：针对每次查询，它只激活模型的特定部分而不是整个模型。

它为何如此重要呢？Gemini 1.5能够同时处理大量的信息——确切的说，它有一个高达100万token的上下文窗口。这意味着它能够处理750,000个词的输入，11小时的音频，1小时的视频，以及数以万计的代码行。

实践中的表现：Gemini 1.5已经被证明可以理解并推理阿波罗11号任务到月球的402页记录，并能准确分析44分钟无声电影的众多情节和事件，还能修改并解释高达100,000行的代码。

免责声明：目前它还没有对公众开放，但谷歌很快就会引入带有128,000 token标准上下文窗口的1.5 Pro，并最终扩展到100万token的处理能力。

ChatGPT终于可以记忆了

是否有过这样的体验：与ChatGPT聊天时，似乎总是陷入一种“等等，你是谁？”的无尽循环。现在，OpenAI终于给出了解决方案：ChatGPT拥有了记忆功能。

OpenAI的创新：新增的记忆功能（目前仍在测试阶段）让ChatGPT能够存储并回忆之前聊天中共享的信息，你再也不需要在每次对话中都重新开始。

如何运作：你可以明确要求ChatGPT记住某项细节，或者让它自动捕捉并记忆信息。例如：

你告诉ChatGPT关于你的无麦面包店，当你询问布朗尼食谱时，它将只为你推荐无麦食谱。

你告诉ChatGPT你希望会议纪要以项目符号列点和加粗标题形式出现，它会将这种格式应用于未来所有的会议概要。

隐私问题怎么办？OpenAI提供了一系列选项，让用户掌控记忆的存储：

用户可以查看ChatGPT所存储的记忆内容，并选择性删除部分信息。

使用隐身模式，用户可以在不依赖之前记忆的情况下发起查询。

从细节到整体：ChatGPT的新记忆功能减少了反复输入同一内容的麻烦，节约了用户的时间和避免了挫败感。然而，这项新功能的意义远不止方便——它是人工智能领域迈向人性化交互的一大跃进。

通过ElevenLabs实现声音变现

ElevenLabs刚刚推出了声音演员支付计划，这是一个全新的机会，任何人都可以通过AI赚钱。

详细介绍：声音演员支付计划允许声音专业人士（实际上任何人）生成并分享自己声音的数字克隆版本。

用户只需上传30分钟声音样本并提供描述性细节（例如口音和性别）。

一旦上传到ElevenLab的声音库中，你的声音就可以被世界各地用于配音和旁白项目。

为了防止滥用，ElevenLabs的管理员会跟踪使用你声音的项目并标记任何不适当的使用。您还可以启用自动筛选器以获得额外的保护。

从微观到宏观：人们对于AI夺走创意工作有很多恐惧。但ElevenLabs是AI潜力呈现新的、金融上有利可图的机会给创意人和创造者的一个例子。

Meta介绍了V-JEPA，这是一种通过视频帮助训练AI模型了解真实世界的方法。
Sam Altman正在寻找7万亿美元（是的，带着“t”）用于一个新的AI芯片项目。
一位巴基斯坦政治候选人使用AI来管理他的竞选活动——从监狱里。
Nvidia推出了一款在您的PC上本地运行的个性化聊天机器人。
苹果刚刚推出了一个名为Keyframer的新图像动画工具。
AI在今年的超级碗中有了它的主流时刻
亚马逊研究人员开发了迄今为止最大的文本到语音模型——并取得了有希望的结果。
微软概述了2024年值得关注的三大AI趋势。

AI新闻

文章版权归 AI分享圈所有，未经允许请勿转载。

告别代码焦虑，拥抱开发快感：Trae AI 助你轻松构建应用，人人皆可成为开发者

AI新闻

1年前

057.7K

2024年17款全球程序员都在使用的最佳AI编码助手工具

AI新闻

1年前

060.2K

飞桨PP系列模型上新！PP-DocBee文档图像理解的新‘蜂’向标！

AI新闻

1年前

050.4K

无需编程，人人都能开发应用！百度“秒哒”引领无代码时代

AI新闻

1年前

048.5K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

本周回顾：2024年初是AI领域初足够震撼的一周

OpenAI彻底改变了视频制作领域

谷歌推出升级版Gemini 1.5

ChatGPT终于可以记忆了