4月第一周AI资讯

今天为大家总结一下近一周在AI领域发生了哪些新闻:

1.DALLE迎来更新

近期,OpenAI 的 DALL-E 今天进行了一些升级。

首先用户登录后,现在可以在 ChatGPT 中使用 DALL-E 时找到图像编辑工具,无论是在网络上还是在移动设备上(IOS和Android)。其次,DALL-E 现在提供预设样式建议,以帮助激发图像创作。

DALL-E 已经是第三代了,最近的此类更新似乎旨在更能微调用户想要的实际效果。DALL-E 3 增加了与 ChatGPT 的集成,这减轻了用户编写提示词的负担——只需告诉 ChatGPT 你想要什么,剩下的就交给它了。

新的提示框上,包括木刻、哥特式、合成和手绘等多种风格,当用户将鼠标悬停在它们上时,会提供示例。选择一个风格会将其添加到提示中。

点击生成的一张生成的图片,会弹出如下可编辑界面。该界面提供了一系列选项,单击绿框中的 Select 按钮:图片

界面跳转到如下形式,其中左边是可拖动大小的按钮,选择自己喜欢的大小,可对图片进行局部选择,假如你对选择的区域不满意,还能进行撤销,重新开始选择:

图片

我们选择了猫咪眼部区域,然后输入提示:给小猫咪戴上墨镜。图片

对于上述图片,你可以继续编辑,比如让小猫咪变成笑脸:图片

感兴趣的同学可以尝试

2.NUCA裸体相机

NUCA是一款“旨在激发和质疑生成式AI在再现身体图像方面的当前轨迹”的相机,它使用AI在10秒内自动脱掉任何拍摄照片的人的衣服。

它被称为“投机性设计和艺术项目”,但它是一个功能原型,可以像宣传的那样工作,并且只明确了自 2019 年我们首次报道 AI 驱动的“脱衣服”应用程序以来的真实情况:创建你有照片的任何人的裸体图像非常容易。

目前的NUCA原型是带有37mm广角镜头的3D打印相机。当它拍摄图片时,它会将其发送到服务器,该服务器使用 分类器来分析图片以文本描述主题:他们的性别、年龄、种族等。然后,该文本用于生成提示,该提示被馈送到 Stable Diffusion 文本到图像的 AI 图像生成器,该生成器与 Civitai 的模型一起用于生成裸体。该相机还使用开源的“一键式”换脸工具将照片中的人脸添加到生成的 AI 生成的图像中。

这个项目引发了对人工智能安全的重要讨论,引起人类隐私方面上的担忧。

3.长视频生成模型发布

4月5日视频生成模型StreamingT2V的代码和模型发布在了Github上。此前3月22日,团队在arXiv上发表论文,提出了一种AI视频生成技术StreamingT2V,可以生成高度一致、长度可扩展的视频。据介绍,StreamingT2V能够生成1200帧、时长120秒的长视频,且理论上可以生成无限长的视频。

这是GitHub地址:https://github.com/Picsart-AI-Research/StreamingT2V

论文地址:https://arxiv.org/abs/2403.14773

4.欢迎来到AI小工具时代

Humane、Rabbit、Brilliant、Meta 和无数其他公司即将推出 AI 优先的小工具。人工智能硬件可能没有智能手机那么大,但它会很有趣。

人性化的AI别针在手。

Humane 将推出其语音控制的 AI Pin。Rabbit 的 AI 驱动的 R1 将开始发货。Brilliant Labs 的 AI 智能眼镜即将问世。Meta 正在其智能眼镜上推出一项新功能,让 Meta 的 AI 能够看到并帮助人类在现实世界中导航。

还有更多的AI小工具即将到来,但AI硬件革命正在正式开始。所有这些小工具的共同点是,它们将人工智能置于体验的首位。

类似于当用户点击 AI Pin 图来提问、播放音乐或拍照时,Humane 会通过一系列语言模型运行查询,以找出要求以及如何最好地完成它。

当使用 Rabbit R1 或 Meta 智能眼镜询问前面是什么牌子的跑车时,它会通过一系列图像识别和数据处理模型来告诉你具体制造商。

虽然这些设备都不会取代手机,而且当前价格不菲,但谁也不会保证它们未来5年后是什么的样子,对我们生活带来哪些有趣的改变。

显示兔子 R1 设备在 Spotify 上播放歌曲。

发表回复