免费AI“神器”第十三弹:会20种语言的数字人爆火;机器人能提前08秒预测人类表情|钛媒体AGI

2024-04-17 亚克力系列
产品介绍

  原标题:免费AI“神器”第十三弹:会20种语言的数字人爆火;机器人能提前0.8秒预测人类表情|钛媒体AGI

  今天,钛媒体AGI梳理了免费 AI “神器”系列第十三弹,共五款,其中不少产品再一次拓宽了我们对AI的想象力。

  产品信息:Digen是由Digen AI研发的全新克隆数字人工具产品,称是利用生成式 AI 技术创建面向未来的视频,支持多达20种语言、40+种声音,手势、口型和语调全部同步一致,视频效果比较逼真。

  产品功能:用户可通过官网申请内测,使用时免费进行个性化头像生成,大约需要5-7天时间,随后能够直接进行视频编辑和生成等操作,最终能轻松实现数字人视频状态,声称为Digen in Real Motion 1.0。

  目前,Digen包括免费版、创作者版、专业版三个版本,后两者每月计费分别为9.9 美元、19.9美元,如果按年订阅价格会更低一些。公司称,免费计划的订阅者不受任何时间限制,但每月只能制作总长度为2分钟的视频,视频数量没有限制。

  产品信息:哥伦比亚大学创新机器实验室近日推出一款可以预测人的表情,并能与人类同步做出表情的人脸机器人。这款机器人采用自我监督学习框架,运作原理类似于人类通过照镜子来练习面部表情。

  产品功能:EMO可以在人类微笑前839毫秒预测马上就要来临的微笑,并通过模型与人类同时表达微笑。此外,Emo还可以预测悲伤、愤怒和惊讶等表情,还能与人类进行眼神互动,但目前还不能做出人类的所有表情。

  据了解,Emo的眼睛里装有摄像头,硅胶皮肤下有26个电机,类似于人类面部的肌肉,可以为机器人的面部表情提供动力。另外,该机器人使用两个神经网络,一个用来观察人脸并预测表情,另一个研究怎么样在机器人脸上产生表情。第一个神经网络通过视频网站上的视频进行训练,第二个神经网络让机器人通过实时摄像机观看自己做的表情来训练。

  团队研究人员表示,未来,他们还将拓宽机器人的表情范围,希望EMO能对人所说的话做出一定的反应,而不是简单模仿人类。此外,研究人员正利用大模型将语言交流整合到Emo中,让Emo能够回答问题和对线、Domo AI 新功能上线:能让静态人像动起来

  例如,用户都能够上传一张静态照片和一个参考的动态视频,Domo AI便能够巧妙地将静态照片中的人物替换成动态视频中的人物,实现惊人的视觉转换。

  Ideogram的基本功能为文生图功能,但与其他图像生成模型不同的是,Ideogram擅长生成包含文本的图片,用户只需输入提示词,Ideogram就可根据要求将文字融入生成的图片中,实现平面、悬浮甚至立体文字效果。比如生成电影、产品海报、T恤印花等图像,解决了生图AI在图像文字生成上的痛点。

  近期上线版本在正确显示文本方面有了显著提升,生成的图像也更逼真,可以对复杂提示词进行精确响应。Ideogram 表示,参与测试的评估者对于 Ideogram 1.0 在提示对齐、图像连贯性、整体偏好和文本渲染质量方面的偏好超越了 DALL·E 3 和 Midjourney V6。

  在这一框架内,团队证明了通过整合更高级的模块(如更先进的语言模型或生成视觉模型)可以显著提升文本对齐或图像质量等能力,经过大量评估验证了LaVi-Bridge模型的有效性。

  平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

hthcom下载专业承接酒店,医院等场所的整体卫浴,整体卫生间,装配式卫浴设施等设计、定制、安装、售后为一体。咨询热线:18562518025(微信同号)

CopyRight © 版权所有: 华体会体育最新手机版登录地址-hthcom下载 网站地图 XML 备案号:鲁ICP备19014708号-1


扫一扫访问移动端