Ai开源项目

共 127 篇网址
MotionAgent一站式视频生成工具

MotionAgent一站式视频生成工具

MotionAgent一站式视频生成工具简介 MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合,进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。其中,通义千问 -7B 模型可以帮助生成高质量的剧本内容,文本生成图片模型可以生成剧照,而核心模型 I2VGen-XL 可以将剧照转化为视频,最后音乐生成模型可以生成想要的音乐。通过 MotionAgent,用户可以将自己的创意轻松变成现实。MotionAgent功能特性1、剧本生成(Script Generation)用户指定故事主题和背景,即可生成剧本,剧本生成模型基于LLM(如Qwen-7B-Chat),MotionAgent可生成多种风格的剧本2、剧照生成(Movie still Generation)通过输入一幕剧本,MotionAgent即可生成对应的剧照场景图片3、视频生成(Video Generation)图生视频,支持高分辨率视频生成4、音乐生成(Music Generation)MotionAgent可自定义风格的背景音乐
230
DreaMoving

DreaMoving

DreaMoving简介 DreaMoving,一种基于扩散的可控视频生成框架,用于生成高质量的定制人类舞蹈视频。具体来说,给定目标身份和姿势序列,DreaMoving 可以生成目标身份在姿势序列驱动下在任何地方跳舞的视频。为此,我们提出了一个用于运动控制的视频控制网络和一个用于身份保留的内容指南。所提出的模型易于使用,并且可以适应大多数风格化的扩散模型以生成不同的结果。DreaMoving项目地址:https://dreamoving.github.io/dreamovingDreaMoving 概述:Video ControlNet 是在每个 U-Net 块之后注入运动块的图像 ControlNet。Video ControlNet 将控制序列(姿态或深度)处理为额外的时间残差。Denoising U-Net 是一种衍生的 Stable-Diffusion U-Net,带有用于视频生成的运动块。内容导览器将输入文本提示和外观表达式(如人脸(布料是可选的))传输到内容嵌入中,以便交叉注意。结果:DreaMoving 可以生成高质量和高保真度的视频,给定指导序列和简单的内容描述,例如文本和参考图像作为输入。具体来说,DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的全面视频外观控制来展示身份控制的熟练程度。
60
FreeAskInternet

FreeAskInternet

FreeAskInternet简介 FreeAskInternet 是一个完全免费、私有且本地运行的搜索聚合器,并使用 LLM 生成答案,无需 GPU。用户可以提出问题,系统将使用searxng进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。所有进程都在本地运行,不需要 GPU 或 Openai 或 Google API 密钥。FreeAskInternet特征:完全免费(不需要任何API密钥)完全本地化(无需GPU,任何计算机都可以运行)完全私有(所有内容都在本地运行,使用自定义 llm)无需 LLM 硬件即可运行(无需 GPU!)使用免费的 ChatGPT3.5 / Qwen / Kimi / ShipuAI(GLM) API(无需 API 密钥!感谢 OpenAI)自定义 LLM(ollama,llama.cpp) 支持,是的,我们喜欢 ollama!使用 Docker Compose 快速轻松地部署Web 和移动友好界面,专为 Web 搜索增强的 AI聊天而设计,允许从任何设备轻松访问。FreeAskInternet怎么运行的?1、系统在FreeAskInternet UI界面(本地运行)中获取用户输入的问题,并调用searxng(本地运行)在多个搜索引擎上进行搜索。2、抓取搜索结果链接内容并传递给ChatGPT3.5/Kimi/Qwen/ZhipuAI/ollama(使用自定义llm),要求LLM以此内容为参考回答用户问题。3、将答案传输到聊天 UI。4、我们支持自定义 LLM 设置,因此理论上无限的 llm 支持。
140
AniPortrait

AniPortrait

AniPortrait简介 AniPortrait是一款由腾讯研究人员开发的音频驱动的肖像动画合成框架,它能够根据音频和静态人脸图片生成逼真的动态视频。AniPortrait的应用场景包括为视频配音或创作逼真的人脸动画、制作创意表情包或独特的动态头像以及为艺术家和创作者提供面部再现和动画生成的工具。AniPortrait功能特征:AniPortrait图片生成视频的功能特征主要包括以下几点:音频驱动的肖像动画合成:AniPortrait是一款能够根据音频和静态人脸图片生成逼真动态视频的工具,它通过提取音频中的3D面部表情来实现这一功能。用户友好性:使用AniPortrait非常简单,用户只需提供音频和人脸图片,即可生成符合特定要求的人脸动画。此外,用户还可以根据需要调整模型和权重配置,以实现个性化的动画效果。三维数据转换:AniPortrait会从音频中提取出三维的中间数据,并将这些数据转换成一连串的二维面部轮廓标记,为后续的人脸动画生成打下基础。高品质动画生成:该工具基于音频和一张参考人脸照片来生成高品质的动画,包括两个主要步骤:首先是从音频中提取三维中间数据,然后进行后续处理。AniPortrait应用场景:AniPortrait图片生成视频的应用场景主要包括以下几个方面:虚拟现实(VR):AniPortrait可以为VR角色提供逼真的面部动画,增强用户的沉浸感。这意味着在虚拟现实环境中,用户可以通过更加自然和真实的面部表情来与虚拟角色互动,从而提升体验的真实性和互动性。视频游戏:在视频游戏中,AniPortrait的应用可以使得游戏角色的面部表情更加丰富和真实,提高游戏的吸引力和玩家的沉浸感。通过生成逼真的动态视频,可以使游戏角色的表情和反应更加自然,增加游戏的趣味性和互动性。音频驱动的动画合成:AniPortrait支持音频驱动的动画合成,这意味着它可以根据音频内容自动生成相应的面部动画,适用于需要根据特定音频内容生成相应表情或动作的场景。这种应用可以广泛应用于视频制作、电影特效等领域,使得角色的表情和动作更加符合音频内容,提高作品的表现力。高质量动画生成:AniPortrait能够生成高质量的动画,这使得它非常适合于需要高清晰度和细节表现的场合,如电影制作、广告视频等。通过高质量的动画生成,可以确保角色的表情和动作既逼真又细腻,满足专业级别的制作需求。与其他AI工具相比,如阿里推出的EMO,AniPortrait同样能够通过输入一张参考图片和语音音频,创造出生动的视频,展现出丰富的面部表情和多变的头部动作。然而,值得注意的是,AniPortrait比EMO更早开源,这表明腾讯在这一领域的技术创新和开放态度。总的来说,AniPortrait图片生成视频的技术主要依赖于音频和静态人脸图片的输入,通过先进的AI算法处理这些数据,生成逼真且与音频内容匹配的动态视频。这项技术不仅适用于社交媒体、艺术创作等领域,也展现了AI在图像处理和动画生成方面的强大能力。
100
GPT-SoVITS

GPT-SoVITS

GPT-SoVITS简介 GPT-SoVITS,一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。完美克隆你的声音!GPT-SoVITS完美适配中文,应该是目前中文支持比较好的模型。github发布地址:https://github.com/RVC-Boss/GPT-SoVITSGPT-SoVITS主要特点:1、零样本TTS: 输入5 秒的声音样本即可体验即时的文本到语音转换。2、小样本 TTS: 只需 1 分钟的训练数据即可微调模型,以提高语音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。跨语言支持: 使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。3、WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标注,帮助初学者创建训练数据集和 GPT/SoVITS 模型。4、适用于不同操作系统: 项目可以在不同的操作系统上安装和运行,包括 Windows。5、预训练模型: 项目提供了一些已经训练好的模型,你可以直接下载使用。如何使用GPT-SoVITS?如果您是 Windows 用户(使用 win>=10 进行测试),您可以直接通过预压缩进行安装。只需下载预压缩,解压并双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。GPT-SoVITS是一款强大的语音克隆和文本到语音转换工具,它可以实现零样本和少样本的语音克隆,以及跨语言的文本到语音转换。它具有数据量少、质量高、灵活性强、易用性高等优点,可以应用于多种场景。如果你对GPT-SoVITS感兴趣,具体详细步骤,可以去项目开源网址上查看,哔哩哔哩上也有相应的教程。
130
Beeble AI

Beeble AI

Beeble AI简介 Beeble ai和纽约大学一起发布的论文,支持一非常低的成本让人物同虚拟环境的光照相融合,效果看起来非常好。使用 Beeble AI 的 SwitchLight 体验 AI Relighting 的强大功能。毫不费力地改变图像和视频中的照明,实现超逼真的效果。使用 Beeble AI 的创新技术,通过逼真的灯光效果增强您的创作。什么是 Beeble Al?Beeble A!是一个尖端的虚拟制片平台,利用人工智能的力量使用户能够实现逼真的图像合成。它采用复杂的 AI模型来重新照亮图像,提供三种主要方法来实现这一目标:HDRI:Beeble 利用高动态范围图像 (HDRI) 重新照亮图像,捕捉场景中的全范围光线。人像:通过使用人像图像,Beeble 将照明从一个场景转移到另一个场景,提供无缝的照明调整。自定义:Beeble 还允许用户使用自定义照明设置来重新照亮图像,从而提供最大的灵活性。Beeble A的特点:逼真的重新照明:Beeble 的 A模型提供了令人惊叹的逼真图像重新照明,使生成的图像看起来就像是在新的照明条件下捕获的一样。通用用例:Beeble 适用于广泛的应用,包括虚拟制片、图像合成和 VFX工作,为专业人士提供充足的创作机会。用户友好的界面:Beeble 的平台易于使用,使用户能够毫不费力地上传他们的图像,选择所需的照明条件,并生成逼真的重新照明图像。BeebleAl的应用:虚拟制片:Beeble 使用户能够创建逼真的虚拟制片,提供看似在真实世界地点拍摄的场景。图像合成:借助 Beeble 的图像合成功能,用户可以无缝地合并来自不同场景的元素,从而产生迷人的视觉合成。视觉特效工作:Beeble帮助视觉特效艺术家生成超逼真的特效,为他们的创作增添了额外的真实性。如何使用Beeble Ai?1、上传图片:首先将您希望重新点亮的图片上传到 Beeble 的平台。2、照明选择:从可用选项(HDRI、纵向或自定义照明)中选择所需的照明条件。3、点击“重新点亮”:通过单击“重新点亮"按钮启动 Ai重新点亮过程。4、逼真的效果:见证您的图像在逼真的照明下被转换,产生令人信服和专业的最终结果。Beeble AI由位于韩国首尔的人工智能研究人员专门团队开发,拥有丰富的人工智能研究经验以及在顶级人工智能会议上发表文章的经验,Beeble AI 旨在通过提供基于人工智能的创新解决方案来释放人类的创造潜力 。
70
Media2Face

Media2Face

Media2Face简介 在人工智能领域,从语音中创建准确的面部唇部动作一直是一个持续的挑战。然而,突破已经到来——Media2Face。Media2Face是通过音频、文本和图像多模态引导的共语言面部动画生成工具。它利用音频、文本和图像输入的引导来自然地模仿人类语言,引入了广义神经参数面部资产 (GNPFA)。这是一种高效替在空间,从而解耦表情和身份。然后,我们利用GNPFA从大量视频中提的变分自动编码器,可将面部几何形状和图像映射到高度广义的表情取高质量的表情和准确的头部姿势。由于高质量的 4D 面部数据有限,从语音合成 3D 面部动画面临着挑战。然而,借助 Media2Face,现在可以从任何音频、图像或文本输入无缝生成逼真且富有表现力的面部动画。Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如情感调整,“快乐”或“悲伤”等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。Media2Face实际应用:创造对话场景:根据你写的剧本,电脑可以生成人物对话的动画场景。制作风格化的面部动画:你可以给电脑一个表情符号,它就能根据这个符号创造出动画。情感歌唱:电脑还能根据不同的语言唱歌,表现出对应的情感。个性化动画:最神奇的是,这个项目能够创造出符合不同人种、年龄和性别的个性化面部动画。影视制作公司使用Media2Face生成影片中虚拟人物的面部动画。虚拟主持平台利用Media2Face实现虚拟主持的面部表情生成。游戏开发公司在虚拟角色设计中应用Media2Face进行面部动画生成。Media2Face是如何工作的?Media2Face项目的工作原理涉及几个关键技术和步骤,使其能够从语音合成出具有丰富表情和情感的3D面部动画。下面是该项目的主要工作流程:1. 通用神经参数化面部资产(GNPFA):首先,研究团队创建了一个特殊的工具(叫做GNPFA),它就像一个大型的面部表情数据库。无论你想要什么样的表情,这个工具都能帮你找到,并且还能确保每个人的面部动画都独一无二,不会和别人混淆。这个过程实现了表情和身份的解耦,即能够在不同的身份之间转换相同的表情。然后,他们用这个工具处理了很多视频,从中提取出了高质量的表情和头部动作。这样就创建了一个巨大的数据集,里面包含了各种各样的面部动画和对应的情感、风格标签。2. 多模态引导的动画生成:Media2Face采用一个扩散模型在GNPFA的潜在空间中进行动画生成,这个模型能够接受来自音频、文本和图像的多模态引导。模型将音频特征和CLIP潜在代码作为条件,与表情潜在代码序列的噪声版本以及头部运动代码(即头部姿势)一起去噪。条件被随机掩蔽,并通过与噪声头部运动代码的交叉注意力进行处理。3. 表情和头部姿势生成:利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势。这呈现了 M2F-D 数据集,这是一个大型、多样化和扫描级别的共同语音3D面部动画数据集,具有注释良好的情感和风格标签。4.表情和风格微调:通过表情编码器提取关键帧表情潜在代码,并通过CLIP提供每帧的风格提示,如“快乐”或“悲伤”,用户可以调整动画的强度和控制范围。通过以上这些技术步骤,Media2Face能够生成与语音同步的、表现力丰富的3D面部动画,支持复杂的情感表达和风格变化,为创建虚拟角色和增强AI数字人的交互体验提供了强大工具,大量实验表明,Media2Face不仅在面部动画合成中实现了高保真度,而且拓宽了3D面部动画的表现力和风格适应性。
140
ComflowySpace

ComflowySpace

ComflowySpace简介 我们认为开源 ai 图像、视频生成工具值得有更好的交互体验设计,而不是 WebUI 和 ComfyUI 那样原生的样子。很多人不愿意学习或者参与到 AI 生成这个浪潮中,最关键的原因是工具门槛太高。而这正是 Comflowy 要解决的问题,为此我们开发了一款更易用 & 更有用的 AI 图像、视频生成工具 - ComflowySpace。ComflowySpace 的目标是让 ComfyUI & Stable Diffusion 成为普通人都能使用的产品,从下载安装到插件管理、工作流模板、流程编辑,每一个步骤都有良好的设计。Comflowyspace功能:安装更便捷安装 ComfyUI 操作繁琐之余,还常常会遇到各种奇奇怪怪的问题,最后导致安装失败。为了解决这个难题,ComflowySpace 提供了一键安装功能,让你可以在几分钟内完成安装。使用更高效ComflowySpace 提供了一个 workflow 管理功能,你可以在此查看你的所有历史 workflow。有了它,你不再需要手动导出保存 workflow。另外,我们还提供了多 tab 功能,让你可以同时打开和运行多个 workflow,提升多任务操作效率。搭建更简单在 ComflowySpace 中,你可以利用各种模板来搭建 workflow,从而使得搭建 workflow 更加简单和便捷。体验更友好我们优化了非常多的细节体验,让你的使用更加顺畅。同时,ComflowySpace 还和我们的教程打通,降低你的学习门槛。
130
RMBG-2.0

RMBG-2.0

RMBG-2.0简介 RMBG-2.0是由BRIA ai开发的开源图像背景移除模型,它通过卷积神经网络(CNN),来实现高精度的前景与背景分离。RMBG-2.0模型在精心挑选的数据集上进行了训练,包括:一般图像、电子商务、游戏和广告内容,使其适用于支持大规模企业内容创建的商业用例。其准确性、效率和多功能性目前可与领先的 Source Available 型号相媲美。RMBG-2.0主要功能:高精度背景移除:能够准确地从各种类型的图像中分离前景对象。商业用途支持:适用于电子商务、广告设计和游戏开发等领域,支持大规模的企业级内容创作。云服务器无关架构:设计灵活,可以在不同的云平台和服务器上运行,便于扩展。多模态归因引擎:通过处理多种类型的数据(如图像与文本),增强模型的泛化能力,提高背景移除的准确性。数据训练平台:支持大规模数据训练,持续提升模型性能。RMBG-2.0技术原理与特性:深度学习基础:基于深度学习,尤其是CNN,来识别和分离前景与背景。数据训练:在大量标注数据上训练,学习精确的前景背景区分。多模态处理:利用多模态数据提高模型理解图像内容的能力。云无关性:确保模型的部署不依赖特定云环境,增加灵活性。数据烘焙:通过数据增强和预处理,提升模型对新场景的适应性和鲁棒性。RMBG-2.0如何使用?使用该模型只需简单的Python库调用,使用者可以方便地对图像进行背景去除,例如,通过Hugging Face的库加载模型,并进行图像预处理,即可实现背景移除。用户需要安装torch、torchvision、pillow、kornia和transformers等依赖库。RMBG-2.0许可与应用:RMBG-2.0以Creative Commons许可供非商业使用,商业应用需与BRIA签订协议。相比于前代版本,RMBG-2.0的准确率显著提升,从73.26%增加到90.14%,超越了一些知名的商业工具,如remove.bg。
150
Notebook Copilot

Notebook Copilot

Notebook Copilot简介 有了 Notebook CoPilot,开发笔记本的过程变得更加容易。这个简单的工具可以毫不费力地根据您的输入生成代码和 Markdown 单元格,从而显着简化您的工作流程。与语法错误作斗争或花费数小时搜索正确代码片段的日子已经一去不复返了。Notebook CoPilot 智能地分析您的需求,并提供快速的建议和解决方案,因此您可以专注于工作的核心方面。Notebook Copilot 是生产力和效率的缩影。它了解您的意图并提供准确和精确的支持,确保您的笔记本电脑具有最高的专业水准。从自动代码生成到与 Markdown 单元的无缝集成,Notebook CoPilot 简化了复杂性,使您能够轻松交付高质量的工作。将 Notebook Co-Pilot 视为您在 Jupyter 笔记本世界中值得信赖的副驾驶。它引导您了解这个强大环境的复杂性,增强您的编码体验并提高您的工作效率。让 Notebook Copilot 成为您的 ai 伴侣,让您踏上创建非凡笔记本的旅程,展示您的专业知识和创造力。Notebook Copilot优点:Notebook CoPilot 使用高级 GPT 示例进行准确高效的代码生成。在 Jupyter Notebook 和其他流行平台中无缝访问,提高您的工作效率。了解笔记本的完整上下文,确保生成一致且相关的代码。灵活地使用您自己的 OpenAI 密钥来生成个性化代码并获得最佳结果。每个人都可以从 Notebook CoPilot 中受益。这是我们对编码社区的贡献,旨在使编码变得可访问、高效和有趣。Notebook Copilot缺点:虽然 Notebook Copilot 提供了强大的支持,但掌握其功能仍然需要一个学习过程。Notebook CoPilot 自动生成代码和 Markdown 单元格的能力可能是一把双刃剑。虽然 Notebook CoPilot 专为 Jupyter Notebook 设计,但它在与某些 Notebook 版本或扩展的兼容性方面可能存在限制。虽然 Notebook Copilot 提供智能建议和自动化,但它可能与用户的个人编码风格或偏好不完全一致。
180
Kolors Virtual Try-On

Kolors Virtual Try-On

Kolors Virtual Try-On简介 Kolors Virtual Try-On是一个由快手可图团队开发的ai试衣技术,通过可图AI试衣,用户上传自已的照片,就可以在几秒钟内看到自己穿上不同衣服的效果。可图AI试衣在可图基座模型基础上,引入衣服SKU保持网络,实现服饰细节特征的提取与表征。目的在于让用户可以即时看到服装在自己身上的效果,轻松搭配出不同风格,使买家能够更高效地做出购买决策,同时降低卖家的退货成本。Kolors Virtual Try-On可图AI试衣技术特点:保持衣服款式细节:支持多种衣服类型款式,包括上装、长裙等,同时保留衣服图案、文字花纹等细节,实现商品SKU服饰同款保持效果。自然的人物试穿效果:可图AI试衣能生成贴合人物的自然试穿效果,就像本人穿衣服拍照一样,支持室内人物、室外街拍多种场景,实现从平铺衣服到穿衣上身,生成效果符合物理客观规律。全流程素材生成能力:可图大模型支持跨越不同年龄、性别、种族人物模特及背景生成,支持海内外电商模特素材生成需求,以及从模特素材图到模特短视频的全流程生成。Kolors Virtual Try-On可图AI试衣应用场景:买家试衣:帮助买家在购买前看到衣服的实际效果,提高购买决策的效率。电商素材生成:为卖家提供快速更新服饰图片、短视频等电商素材的能力,缩短新品上架迭代更新时间。变装特效:在短视频内容创作中,提供“变装”特效,创作出有趣、有用的日常穿搭内容分享。Kolors Virtual Try-On可图AI试衣技术原理:Kolors Virtual Try-On技术通过引入衣服SKU保持网络,实现服饰细节特征的提取与表征。同时,利用人物pose姿势、Mask掩码图像作为条件特征,实现人物姿势保持的换衣效果。此外,还复用了可图背景修复技术,采用高质量人物衣服pair对大数据训练,提升试穿效果。Kolors Virtual Try-On可图AI试衣的主要目标是帮助用户尝试不同的服装风格,而无需实体购物的麻烦。目的是通过减少与尺寸和颜色不匹配相关的问题来增强在线购物体验。Kolors Virtual Try-On可图AI试衣体验方式:可图AI试衣免费体验:https://huggingface.co/spaces/Kwai-Kolors/Kolors-Virtual-Try-OnGithub可图开源项目:https://github.com/Kwai-Kolors/KolorsHuggingFace可图模型:https://huggingface.co/Kwai-Kolors/Kolors可灵AI平台:https://klingai.kuaishou.com/text-to-image/new
250
Audio2Photoreal

Audio2Photoreal

Audio2Photoreal简介 Meta ai最近发布了一项炸裂的技术:Audio2PhotoReal,从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。这些生成的虚拟人物不仅在视觉上很逼真,而且能够准确地反映出对话中的手势和表情细节,如指点、手腕抖动、耸肩、微笑、嘲笑等。Audio2PhotoReal工作原理:Audio2PhotoReal结合了向量量化的样本多样性和通过扩散获得的高频细节的优势,以生成更具动态性和表现力的动作。1、数据集捕获:首先捕获了一组丰富的双人对话数据集,这些数据集允许进行逼真的重建。2、运动模型构建:项目构建了一个包括面部运动模型、引导姿势预测器和身体运动模型的复合运动模型。3、面部运动生成:使用预训练的唇部回归器处理音频,提取面部运动相关的特征。利用条件扩散模型根据这些特征生成面部运动。4、身体运动生成:以音频为输入,自回归地输出每秒1帧的向量量化(VQ)引导姿势。将音频和引导姿势一起输入到扩散模型中,以30帧/秒的速度生成高频身体运动。5、虚拟人物渲染:将生成的面部和身体运动传入训练好的虚拟人物渲染器,生成逼真的虚拟人物。6、结果展示:最终展示的是根据音频生成的全身逼真虚拟人物,这些虚拟人物能够表现出对话中的细微表情和手势动作。Audio2Photoreal项目地址:https://github.com/facebookresearch/audio2photoreal/Audio2Photoreal论文地址:https://arxiv.org/pdf/2401.01885.pdf
70
SparkAi系统

SparkAi系统

SparkAi系统简介 Sparkai系统演示站入口:https://ai.idcyli.comSparkAi系统演示系统后台:https://ai.idcyli.com/sparkai/admin/#/loginSparkAi系统演示后台账号密码:admin 123456SparkAi系统源码下载:https://pan.baidu.com/s/1_jnAsU_aC_i_mWSjIfyQgw?pwd=vw0oSparkAi系统搭建教程:https://www.sparkaigc.com/33.htmlSparkAi系统搭建配置:https://www.yuque.com/yuqueyonghutq9yt2/ph55oi/ctmn1lg5vz1furqdSparkAi系统使用Nestjs和Vue3框架技术,持续集成AI能力到本系统!支持大模型4.0、Midjourney绘画、GPT3.5 API绘画、GPT联网功能、绘画广场功能、Prompt功能,后台自定义添加,用户也可自定义添加+实时语音识别输入、用户会员套餐、用户每日签到功能、后台管理、一键更新版本!支持手机电脑不同布局页面自适应。● 支持微信环境静默登录(可开启或关闭)、浏览器微信主动扫码登录、邮箱注册登录、手机注册登录● 【可引流至微信公众号】无认证公众号后台可关闭微信登录功能● 支持GPT3模型、GPT4模型、GPT联网功能● Midjourney专业绘画(全自定义调参)、Midjourney以图生图、Dall-E2绘画● MJ同步官方 Vary 指令 单张图片对比加强 Vary(Strong) | Vary(Subtle)● MJ同步官方 Zoom 指令 单张图片无限缩放 Zoom out 2x | Zoom out 1.5x● Mind思维导图生成● 应用工作台(Prompt)、ai绘画广场● 支持直接对接微信官方支付、易支付、码支付、虎皮椒支付● 自定义聚合套餐、代理分销功能● 风控系统(接入百度API敏感词、自定义敏感词)● 用户签到领取功能● 其他更新功能见:https://www.yuque.com/yuqueyonghutq9yt2/ph55oi/ctmn1lg5vz1furqd SparkAi系统源码授权或搭建如果您想要搭建同款站点或者授权系统源码请添加作者!搭建同款系统,请联系qq:501439094或微信:DjiMain,添加时请备注系统源码授权1、【源码授权】目前售价1388永久授权【您将获得】● 永久免费更新特权、后续的更新将不需要任何费用● 站长专属群● 不限量ip换绑、随时换绑服务器● (自行按照教程搭建配置)2、【搭建一条龙服务】目前2588【您将获得】● 源码授权包含套餐● 一条龙搭建好,永久后期帮系统更新● 服务器环境安装、系统部署、后台支付、微信公众号、MJ对接、COS存储桶、KEY池等等● 作者vip服务、作者专属vip指导、保证您的服务稳定● 适合不会任何技术但节省时间想使用此网站的老板。只需要管理和使用即可,技术全包!● (自备服务器,域名,邮箱,存储桶,mj会员,支付接口等)
100
Jan.ai

Jan.ai

Jan.ai简介 Jan.ai,桌面客户端是 ChatGPT 的替代品,可在您自己的计算机上运行,并带有本地 API 服务器。Jan 附带了本地优先、AI 原生和跨平台扩展框架。从本质上讲,Jan 是一个跨平台、本地优先和 AI 原生框架,可用于构建任何内容。开发人员可以扩展和自定义从功能到 UI 再到品牌的所有内容。事实上,Jan 目前的主要功能实际上是作为扩展构建在这个框架之上的。Jan 将数据存储在本地文件系统中。您的数据永远不会离开您的计算机。您可以自由删除、导出、迁移数据,甚至可以迁移到其他平台。Jan.ai特征:兼容开源模型(通过 llama.cpp 的 GGUF、通过 TensorRT-LLM 的 TensorRT 和远程 API)兼容大多数操作系统:Windows、Mac、Linux,通过 llama.cpp 进行 GPU 加速以开放文件格式存储数据本地 API 服务器模式可通过扩展进行定制还有更多在路线图中。加入我们的 Discord 并告诉我们您想看什么!为什么选择Jan?我们相信需要一个开源的人工智能生态系统。我们专注于构建基础设施、工具和自定义模型,使开源 AI 能够在与专有产品公平的竞争环境中竞争。Jan 支持通用架构:Nvidia GPU(快速)Apple M 系列(快速)苹果英特尔Linux Debian的视窗 x64
80
长臂猿AIGC系统

长臂猿AIGC系统

长臂猿AIGC系统简介 长臂猿aiGC系统内置智能聊天对话机器人,AI绘图,AI模型训练,营销内容创作,企业虚拟AI员工等数十项AI功能,可以训练自己的AI机器人,不限制用户数量,支持源码私有化部署,可以用自己品牌掘金AI蓝海市。长臂猿AIGC系统提供基于AI的聊天机器人和AI绘图系统产品,多用户支持,源码程序私有化部署,自带分销功能。长臂猿AIGC系统功能:1、智能对话机器人以对话形式实现创作 客服等工作,并可以通过训练拥有自己的机器人2、AIGC系统内置多种训练模型,可以做所有文字类内容创作、图片创作和设计3、企业AI工作平台用AI驱动企业发展,提高人效,企业级AI系统基于大模型开发训练4、AI训练及开发专业技术团队提供各种基于AI的开发服务长臂猿AIGC系统演示地址:https://ai.changbiyuan.com/#/?org_id=1092&invite=64qTNpVtPi
110
LibreChat

LibreChat

LibreChat简介 LibreChat,一个增强版的ChatGPT程序,一个免费开源的聊天机器人平台,集成了多种 ai 模型,例如 ChatGPT、OpenAI、BingAI、PaLM 2 等。 LibreChat 允许您与不同的 AI 进行自然且引人入胜的对话,并使用各种功能和插件定制您的体验。LibreChat还集成并增强了原始客户端功能,例如对话和消息搜索、提示模板和插件。项目地址:https://github.com/danny-avila/LibreChatLibreChat功能列表:多功能聊天界面: LibreChat 提供类似于ChatGPT的用户界面,包括深色模式、流式传输。多模式聊天: 支持GPT-4V 和 Gemini Vision分析图像。多语言用户界面: 支持多种语言,包括英语、中文、德语、西班牙语、法语、意大利语等。AI模型选择:包括OpenAI API、Azure、BingAI、ChatGPT、Google Vertex AI、Anthropic(Claude)、插件等。用户可以创建、保存并共享自己的自定义预设Agent。提供会话分支功能,允许编辑、重新提交和继续消息。导出对话: 支持将对话导出为截图、Markdown、文本和 JSON 格式。消息/对话搜索: 提供全面的消息和对话搜索功能。插件支持: 包括 Web 访问、使用 DALL-E-3 生成图像等插件。多用户安全认证: 提供多用户安全认证,包括监督和令牌消费工具。配置选项: 配置代理、反向代理、Docker、许多部署选项,并且完全开源。文档和支持: 提供详细的文档和指南,帮助用户安装、配置软件,并使用高级功能。LibreChat 将助理 AI 的未来与 OpenAI 的 ChatGPT 的革命性技术结合在一起。为了庆祝原始风格,LibreChat 使您能够集成多个 AI 模型。它还集成并增强了原始客户端功能,例如对话和消息搜索、提示模板和插件。使用 LibreChat,您不再需要选择 ChatGPT Plus,而是可以使用免费或按通话付费的 API。我们欢迎贡献、克隆和分叉,以增强这个高级聊天机器人平台的功能。官方GitHub:https://librechat.ai文档:https://docs.librechat.ai加入我们的 Discord:https://discord.librechat.ai
130
Perplexica

Perplexica

Perplexica简介 Perplexica是一个开源的ai驱动搜索引擎,它提供了多种搜索模式,为用户提供更精准、更智能的搜索体验。这个搜索引擎受到Perplexity AI的启发,能够根据用户的需求调整搜索算法,以获得更相关的搜索结果。同时,Perplexica使用了先进的机器学习算法来优化其搜索功能。Perplexica支持本地部署的大型语言模型,如Llama3和Mixtral,并提供多种搜索模式,包括Copilot模式、普通模式和焦点模式,后者针对特定类型的问题提供精确答案。同时,Perplexica使用SearxNG作为元搜索引擎,确保获取最新信息,并支持图像和视频搜索。未来计划包括引入更多焦点模式、完善Copilot模式等。Perplexica功能特征:使用本地大型语言模型(LLMs)如Llama3和Mixtral。两种主要模式:Copilot模式(开发中)和普通模式。六种专注模式,包括全模式、写作助手模式、学术搜索模式、YouTube搜索模式、Wolfram Alpha搜索模式和Reddit搜索模式,根据用户需求调整搜索算法,以获得更相关的搜索结果。始终使用SearxNG获取最新信息,无需每日数据更新。支持图像和视频搜索。使用先进的机器学习算法,如相似性搜索和嵌入技术,来精细化搜索结果。确保隐私保护,使用SearxNG作为当前性保障,避免每日数据更新的开销。计划中的功能包括完成Copilot模式、添加设置页面、支持本地LLMs、添加发现和历史保存功能、引入各种专注模式。Perplexica利用先进的机器学习算法优化搜索结果,并注重隐私保护。这个开源项目致力于成为全面、高效的搜索解决方案,满足用户对各种类型信息的需求,同时保护用户隐私并提供最新的搜索结果。
190
M2UGen

M2UGen

M2UGen简介 腾讯发布多模态音乐生成模型M2UGen 支持图片、视频生成音乐,M2UGen是一款引领潮流的框架,融合了音乐理解和多模态音乐生成任务,旨在助力用户进行音乐艺术创作。通过其强大的功能,M2UGen提供了全方位的音乐生成和编辑体验。M2UGen演示地址:https://huggingface.co/M2UGenM2UGen项目地址:https://github.com/shansongliu/M2UGenM2UGen论文地址:https://arxiv.org/abs/2311.11255M型2UGen模型是一种音乐理解和生成模型,能够从文本,图像,视频和音频中进行音乐问答和音乐生成,以及音乐编辑。 该模型利用编码器,如用于音乐理解的 MERT、用于图像理解的 ViT 和用于视频理解的 ViViT,以及 MusicGen/AudioLDM2 模型作为音乐生成模型(音乐解码器),以及适配器和 LLaMA 2 模型。音乐的产生和理解我们介绍M2UGen框架,能够同时 包括音乐理解和多模态音乐生成任务, 旨在协助用户进行与音乐相关的艺术创作。面向音乐的数据集我们提出了一种系统化的方法,用于生成大面向多模态音乐的指令数据集,我们使用 MU-LLaMA 模型和 MosaicML 的 MPT-7B-Chat 模型来生成面向音乐的数据集。我们还利用BLIP图像字幕模型和VideoMAE字幕模型来为各自的模态添加字幕。除了可以从文字生成音乐外,它还支持图像、视频和音频生成音乐,并且还可以编辑已有的音乐。该项目利用了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。用户可以轻松移除或替换特定乐器,调整音乐的节奏和速度。这使得用户能够创造出符合其独特创意的音乐作品。此外,M2UGen还加入了适配器和LLaMA2模型,使得该模型具备多种能力。
140
EchoMimic

EchoMimic

EchoMimic简介 EchoMimic是一个蚂蚁集团支付宝基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节,可用于虚拟主播、视频编辑等,效果比SadTalker、MuseTalk好,表情更丰富动作更顺畅。EchoMimic可以根据人像面部特征和音频来帮人物对口型,结合面部标志点和音频内容生成较为稳定、自然的视频。EchoMimic功能:音频驱动动画,可以根据音频生成人物肖像的动画,比如唱歌、说话视频等。姿势驱动动画,可以根据姿势数据生成人物肖像的动画。音频和姿势混合驱动动画,可以同时使用音频和姿势数据来生成动画。WebUI 和 GradioUI,提供图形界面,易于使用。可编辑的标志调节:用户可以选择特定的面部标志来控制动画,提供更大的灵活性和定制性。支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。EchoMimic应用:肖像图像动画:使用音频输入从静态图像创建动态视频,可用于娱乐、虚拟化身和数字通信。增强稳定性和自然度:通过结合两种输入,克服音频驱动方法的不稳定性和关键点驱动方法的不自然性。可定制的动画:用户可以编辑特定的面部标志以实现所需的动画效果。ComfyUI EchoMimic:https://github.com/smthemex/ComfyUI_EchoMimicEchoMimic项目:https://badtobest.github.io/echomimic.htmlEchoMimic Github:https://github.com/BadToBest/EchoMimicEchoMimic模型:https://huggingface.co/BadToBest/EchoMimicEchoMimic 由蚂蚁集团支付宝终端技术部开发的音频输入驱动创建逼真肖像动画的技术。它使用可编辑的地标调节来实现逼真的面部动作和表情,从而实现高度可定制且外观自然的动画。
150
ChatGPT-Plus

ChatGPT-Plus

ChatGPT-Plus简介 ChatGPT-PLUS 基于 ai 大语言模型 API 实现的 AI 助手全套开源解决方案,自带运营管理后台,开箱即用。集成了 ChatGPT, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。支持 MJ AI 绘画,Stable Diffusion AI 绘画,微博热搜等插件工具。采用 Go + Vue3 + element-plus 实现。ChatGPT-PLUS主要功能:完整的开源系统,前端应用和后台管理系统皆可开箱即用。基于 Websocket 实现,完美的打字机体验。内置了各种预训练好的角色应用,比如小红书写手,英语翻译大师,苏格拉底,孔子,乔布斯,周报助手等。轻松满足你的各种聊天和应用需求。支持 OPenAI,Azure,文心一言,讯飞星火,清华 ChatGLM等多个大语言模型。支持 Midjourney / Stable Diffusion AI 绘画集成,开箱即用。支持使用个人微信二维码作为充值收费的支付渠道,无需企业支付通道。已集成支付宝支付功能,微信支付,支持多种会员套餐和点卡购买功能。集成插件 API 功能,可结合大语言模型的 function 功能开发各种强大的插件,已内置实现了微博热搜,今日头条,今日早报和 AI 绘画函数插件。ChatGPT-Plus功能截图:ChatGPT-PLUS全套完整的开源系统,前端应用和后台管理系统皆可开箱即用,基于 MIT 开源协议,集成支付系统,可以直接商用变现。
170
VideoDrafter

VideoDrafter

VideoDrafter简介 VideoDrafter,一个高质量视频生成的开放式扩散模型,相比之前的生成视频模型,VideoDrafter最大的特点是能在主体不变的基础上,一次性生成多个场景的视频。项目地址:https://videodrafter.github.io论文地址:https://arxiv.org/abs/2401.01256VideoCrafter由腾讯ai实验室和香港科技大学主导,同时也有来自中国科学院、香港中文大学和香港城市大学的研究人员参与。是一款全新的视频生成模型,可以进行创建和编辑套件,采用了扩散模型,能够从文本描述生成照片和视频。即使没有视频编辑或动画经验的人也可以轻松制作专业品质的视频。VideoDrafter目前包括Text2Video和Image2Video模型。Text2Video模型用于生成通用的文本到视频的转换,Image2Video模型用于生成通用的图像到视频的转换。商用的Text2Video模型可以生成高质量的视频,但是不开源。VideoDrafter功能:VideoCrafter 是一个创新的开源视频创作和编辑套件。它使用扩散模型和机器学习从文本描述中生成逼真的视频。该工具用户友好,适合初学者,提供专业品质的结果。VideoCrafter 的操作涉及将文本转换为视觉序列并将它们拼接在一起。它的多功能性允许创建各种视频类型,从教育内容到宣传材料。分步指南使 VideoCrafter 入门变得容易。该工具是免费使用的,所有创作者都可以使用。VideoDrafter使用步骤:1、创建视频的书面大纲。2、根据自己的喜好设置视频相关参数,包括分辨率和帧速率。3、使用“生成”按钮。4、输入一些文字,VideoCrafter将为您生成视频。5、生成的视频可以在集成编辑器的帮助下进行修改。6、在进行调整后,可以将视频保存为多种格式,包括MP4、MOV和AVI。VideoCrafter的用户友好性使其即使对于从未使用过视频或动画软件的人也可以轻松使用。与商业制作的电影媲美,VideoCrafter的输出质量非常高。无论您想制作解释性视频还是短片,VideoCrafter都能胜任。更重要的是,VideoCrafter是一个免费的开源项目。
170
TryOnDiffusion

TryOnDiffusion

TryOnDiffusion简介 TryOnDiffusion是一种基于两个UNet的扩散架构,旨在生成穿在输入人物身上的服装的可视化效果图。该方法能够在保留服装细节的同时,适应显著的身体姿势和形状变化。TryOnDiffusion在定性和定量上都取得了最先进的性能,是一种非常有效的虚拟试衣技术。TryOnDiffusion 可以将两幅图片进行合成,帮照片中的人物更换不同的服饰。一张是展示某个人,另一张是展示另一个人所穿的服装——生成一张图像,展示这件服装可能在输入的人身上的样子。此前这类模型通常会存在缺乏服饰细节的缺点。传统的合成方法通常只能接受造型区别不大的两张图片,否则合成出来的新图片会出现服装变形严重的情况。而 TryOnDiffusion 利用一种被称为并行 UNet 的扩散式架构,让合成的照片可以在保留服饰细节的情况下适应人体的姿势以及形状变化。TryOnDiffusion特点:该模型使用扩散技术,展示不同体型和姿势的人穿着衣物的效果。新的ai模型能够生成高质量、逼真的试穿图像。该模型使用图像扩散和交叉注意力技术,而非文本输入。为了提高准确性,该模型使用Google购物图谱进行训练。虚拟试衣间功能现已支持Anthropologie、LOFT、H&M和Everlane等品牌的女士上衣。该功能将逐步扩展到更多品牌。目前没有开源。
170
VideoDoodles

VideoDoodles

VideoDoodles简介 VideoDoodles是一款能在视频中轻松任意插入手绘动画并与视频内容无缝融合的ai工具,它将视频内容与手绘动画相结合,制作出独特的视频剪辑。通过VideoDoodles你可以在视频中添加手绘涂擦动画,比如你可以画个搞笑的小人或者别 的手绘元素插入到视频中,让视频更吸引人。这些动画不仅能跟随视频中的物体移动,还能自动调整大小和角度。VideoDoodles主要挑战在于确保手绘动画能完美集成到捕获的场景中,当它们相对于相机和场景中的其他对象移动时进行适当的跟踪、透视变形和遮挡。VideoDoodles引入了一种新颖的 UI 和跟踪算法,以解锁通过深度和运动数据(通过现有计算机视觉方法获得)增强的视频的新版本功能。根据通过任意数量的位置和方向关键帧表达的用户意图,VideoDoodles的算法可以通过正确的遮挡、透视变换在视频的任何帧渲染场景感知画布,并使画布跟随移动对象。使得插入的绘画能够自然地融入视频场景,实现追踪、透视变形和遮挡等复杂视觉效果。VideoDoodles 的主要功能:场景感知画布:VideoDoodles让用户可以将平面画布放置在从视频重建的 3D 场景中。这些画布以 3D 方式进行跟踪,然后手绘动画在相对于相机和场景中的其他对象移动时保持正确的透视和遮挡。自定义跟踪算法:VideoDoodles可将画布锚定到视频中的静态或动态对象。这确保画布移动和旋转以跟随这些对象的位置和方向,使动画显示为捕获场景的一部分。用户界面易用:VideoDoodles提供 2D 图像空间 UI,用户可以通过关键帧控制画布的位置和方向。系统通过跟踪视频1中移动对象的运动来插入这些关键帧。深度和运动数据集成:VideoDoodles 利用通过现有计算机视觉方法获得的深度和运动数据来增强动画的真实感。这种集成允许通过正确的遮挡和透视变换准确渲染场景感知画布。VideoDoodles 的应用:娱乐:通过添加与现实世界镜头交互的动画元素来创建有视觉吸引力的视频内容。教育:通过说明性动画增强教育视频,有助于更有效地解释复杂的概念。增强讲故事能力:VideoDoodles 可用于在真人镜头中添加异想天开或说明性元素,从而增强叙事和视觉吸引力。创意广告:品牌可以使用 VideoDoodles 来创建独特的广告,通过将现实世界的镜头与动画元素相结合来让广告更有吸引力。VideoDoodles 通过实现手绘动画与视频内容片段的无缝融合,从而轻松地生成独特有趣的交互式视频视觉内容,从而增强讲故事、教育、营销、社交媒体内容创作的用户体验。
190
IDM-VTON

IDM-VTON

IDM-VTON简介 IDM-VTON是一种先进的虚拟试穿技术,它通过结合视觉编码器和UNet模型来生成高质量的虚拟试穿图像,并且可以通过定制来进一步提高图像的一致性和真实性。IDM-VTON技术特点:高度真实感: 生成的试衣图像细节精细,提供接近现实的试衣体验。复杂背景处理: 在户外或背景复杂的场景中,准确展示衣物试穿效果,保持图像高质量。一致性保持: 在不同人物模型上展示同一件服装时,保持服装细节的一致性。纹理与图案精确再现: 特别擅长捕捉服装的纹理和图案,包括微小装饰。IDM-VTON应用场景:时尚零售: 提供便捷的试衣方式,增强用户体验。个性化服装设计: 为设计师提供新的展示和销售手段。在线试衣间: 为消费者提供虚拟试衣体验。增强现实(AR)试衣体验: 结合AR技术,提供沉浸式试衣体验。IDM-VTON技术优势:用户便利: 用户无需亲自试穿即可预览服装效果。零售商成本节约: 节省实体试衣间的成本,提供多样化试衣体验。设计师反馈: 设计师可以通过虚拟试衣快速获取反馈,优化设计。DM-VTON的定制过程是怎样的?IDM-VTON的定制过程涉及到对模型的微调,以适应特定的服装图像和人物图像。以下是定制IDM-VTON的一般步骤:1、数据准备:收集或准备一个包含服装图像和人物图像的数据集。这些图像应该具有高质量,并且服装图像应该包含复杂的图案和细节。确保数据集中的图像遵循特定的格式和结构,以便于模型的训练和推理。2、模型训练:使用IDM-VTON的训练代码,根据数据集进行模型训练。这通常涉及到设置训练参数,如学习率、批量大小、训练周期等。在训练过程中,模型会学习如何将服装图像映射到人物图像上,同时保持服装的细节和复杂图案。3、模型微调:根据需要,对模型进行微调。这可能包括调整模型的结构、超参数或者训练策略,以提高特定服装图像的生成质量。微调过程中,可以使用特定的服装图像和人物图像对来优化模型的性能。4、评估和优化:使用评估指标(如FID、SSIM、PSNR等)来衡量模型生成的图像质量。根据评估结果,进一步调整模型参数或训练策略,以提高模型的性能。5、部署和应用:将训练好的模型部署到实际应用中,如虚拟试穿系统。在实际应用中,用户可以上传自己的服装图像和人物图像,模型将生成虚拟试穿的图像。6、持续迭代:根据用户反馈和实际应用中的表现,持续迭代和优化模型。可能需要定期收集新的数据集,以适应新的服装样式和趋势。IDM-VTON项目信息项目地址: https://idm-vton.github.io/试玩地址: https://top.aibase.com/tool/idm-vton
90
notesGPT

notesGPT

notesGPT简介 notesGPT,一个能够录下你的语音内容,然后自动帮助你把这些语音转成文字,对内容进行总结,创建具有视觉吸引力的文档,并能够添加图像、待办事项列表、图表、链接和多媒体内容,使您的笔记更具表现力和全面性。要把文字给notesGPT,就会细致地分析好几遍,像海绵一样吸收每一个细节。notesGPT将制作一套完美的笔记,保持原始结构,同时结合表情符号、标题、表格、粗体、斜体和其他格式元素以提高保留率。您不再需要为总结或遗漏重要细节而苦苦挣扎。NotesGPT 超越了单纯的摘要,它捕获了所有细节、关键术语、示例、引文、统计数据——所有使您的笔记真正全面的内容。把我想象成你的个人学习指南创建者或内容总结者!notesGPT的主要功能包括:1. 录制语音笔记:用户可以直接通过该工具录制他们的语音笔记,无需手动输入文字,方便快捷。2. 自动转录:录制的语音笔记会自动被转换成文本形式,便于阅读和编辑。3. 内容总结:notesGPT能够自动分析转录的文本内容,并提供一个简洁的总结,帮助用户快速把握笔记的关键信息。4. 生成行动项:根据语音笔记的内容,自动生成相关的行动项或任务,帮助用户更有效地组织和规划工作或学习任务。5. 100%免费和开源:notesGPT是一个完全开放源代码的项目,用户可以免费使用所有功能,同时社区的开发者也可以参与到项目的改进和扩展中来。
90
DragGAN

DragGAN

DragGAN简介 近日,来自 Google 的研究人员与 Max Planck 信息学研究所和麻省理工学院 CSaiL 一起,发布了一个名为 DragGAN 的图像编辑工具。这是一个非常直观的图像编辑工具,用户只需要控制图像中的像素点和方向,就可以让图像变形。通过DragGAN,任何人都可以通过精确控制像素的位置来变形图像,从而操纵不同类别的姿势、形状、表情和布局。DragGANHugging Face地址:https://huggingface.co/papers/2305.10973DragGAN官方示例网址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/DragGANgithub网址:https://github.com/XingangPan/DragGAN DragGAN在producthunt网址:https://www.producthunt.com/posts/draggan
240
DeepFaceLab

DeepFaceLab

DeepFaceLab简介 DeepFaceLab是一种利用深度学习识别来交换图片和视频中的人脸的工具。这种技术在特定的场合下可以做出非常逼真自然的换脸视频。而 DeepFaceLab 是众多软件中,安装最简单,使用最方便,更新最快的一款软件。DeepFaceLab原版需要一定的英文基础,对于国内用户不是很友好。DeepFaceLab中文网独家推出本地化软件适配,为大家提供“懒人专用” DeepFaceLab 软件下载包!具体内容包含:1.DeepFaceLab官方英文原版2.DeepFaceLab中文汉化版3.DeepFaceLab图形界面汉化版deepfacelab中文网-提供deepfacelab中文汉化下载教程DeepFaceLab功能特性安装方便,环境依赖几乎为零,下载打包 app 解压即可运行(最大优势)添加了很多新的模型新架构,易于模型实验人脸图片使用 JPG 保存,节省空间提高效率CPU 模式,第 8 代 Intel 核心能够在 2 天内完成 H64 模型的训练。全新的预览窗口,便于观察。并行提取并行转换所有阶段都可以使用 DEBUG 选项支持 MTCNN,DLIBCNN,S3FD 等多种提取器支持手动提取,更精确的脸部区域,更好的结果。
170
Magi

Magi

Magi简介 Magi模型,可以自动将漫画转录成文字并自动生成剧本,还可以通过识别漫画页面上的面板、文字块和角色,重新排序和关联,输出连贯的对话内容,准确地为每幅漫画生成文本记录,从而保证输出文本的逻辑性,使整个流程更加高效。Magi模型由牛津大学工程科学系的视觉几何组开发。Magi适用于那些需要将漫画图片自动化生成文本的研究人员、开发者或者漫画爱好者。它为这些用户提供了方便快捷的工具,从而帮助他们轻松进行数字化漫画内容及索引。Magi GitHub源码:https://github.com/ragavsachdeva/magiMagi论文:https://arxiv.org/abs/2401.10224Magi模型主要功能:面板检测:精确识别漫画页面上的各个面板,即画家绘制的独立矩形画框,这是理解漫画页面布局和内容的第一步。文本检测:在每个面板内部定位文字区域,提取包含重要对话或叙述的文本块,这是理解面板内容的基础。角色检测:检测每个面板内出现的角色,获取其在图像中的边界框、姿态、表情等视觉信息,这对后续分析至关重要。角色识别:基于检测结果,识别每个角色的身份信息,如名字、称呼等,这可以帮助跟踪故事中的人物。角色聚类:根据面部特征、服装特征等信息,将同一角色的不同姿态图片聚类到一起,从而区分页面上的不同角色。语音分配:判断文本块属于页面上哪个角色的对话,将语音正确分配给对应的角色,这对生成精确的剧本必不可少。阅读排序:根据面板位置、阅读顺序,将分散的文本块重新排序和连接,输出连贯的对话内容,从而保证输出文本的逻辑性。Magi如何使用?1、上传漫画图片2、系统自动识别并提取漫画图片相关信息生成文本3、用户根据需要对文本进行编辑和修改通过Magi的这些功能,Magi能够自动将漫画页面转化为详细的文字剧本,解决漫画页面的自动理解和剧本生成问题,包含角色对话和相应的动作或情境描述,这使得漫画内容的数字化处理变得轻松快捷,使读者能够通过阅读文本来完整地体验漫画故事。
120
LabelLLM

LabelLLM

LabelLLM简介 LabelLLM是一个开源的数据标注平台,致力于优化对于大型语言模型(LLM)开发不可或缺的数据标注过程。LabelLLM的设计理念旨在成为独立开发者和中小型研究团队提高标注效率的有力工具。LabelLLM的核心在于通过提供全面的任务管理解决方案和多样化的多模态数据支持,简化并增强模型训练的数据注释过程的效率。LabelLLM特色功能:灵活的配置:LabelLLM以其可适应性强的框架而脱颖而出,提供了一系列可定制的任务特定工具,以满足数据标注项目的多样化需求。这种灵活性允许平台无缝集成到各种任务参数中,使其成为模型训练数据准备阶段的宝贵资产。多模态数据支持:LabelLLM认识到数据多样性的重要性,并将其能力扩展到包括音频、图像和视频在内的多种数据类型。这种全面的方法确保用户可以在一个统一的平台上进行包含多种数据类型的复杂标注项目。全面的任务管理:为确保体现最高标准的质量和效率,LabelLLM设有全方位的任务管理系统。该系统提供实时监控标注进度和质量控制,从而保证所有项目的数据准备阶段的完整性和时效性。人工智能辅助标注:LabelLLM支持预标注数据的一键载入,用户可以根据实际需要对其进行细化和调整。这一特性提高了标注的效率和准确性。LabelLLM产品特性:多功能性: LabelLLM为用户提供了广泛的数据标注工具,旨在处理各种任务,而不会损害标注的效果或准确性。用户友好: 除了功能强大之外,LabelLLM还非常注重用户体验,提供直观的配置和工作流程,简化了数据标注任务的设置和分配。效率提升: 通过整合人工智能辅助的标注,LabelLLM大幅提高了标注效率
130
Cody Former

Cody Former

Cody Former简介 CodeFormer是一个高级的人工智能图像处理工具,Cody Former专注于面部修复、图片清晰化以及视频去除马赛克和修复。CodeFormer利用了先进的ai技术,包括基于Transformer的架构和注意力机制,能够有效地分析和处理图像,使之恢复如新,增强颜色,恢复面部细节,并减少照片中的噪点。CodeFormer特别适用于老照片的修复,使得珍贵的记忆得以生动再现。CodeFormer作为一个开源项目,在GitHub上可以找到其源代码和相关文档,支持通过GPU或CPU进行加速处理,但使用GPU需要确保系统配置满足CUDA和cuDNN的要求。对于非技术用户,它也提供了图形界面的一键安装版本,简化了安装和使用流程。此外,CodeFormer在处理效果上被广泛认为是非常强大的,能够实现马赛克去除,提升图像质量,甚至在视频修复领域也有出色表现。CodeFormer项目地址:https://shangchenzhou.com/projects/CodeFormer/ CodeFormer下载地址:https://github.com/sczhou/CodeFormerCodeFormer主要功能特征:1、图像修复与增强人脸修复:特别擅长处理低质量、模糊或损坏的面部图像,能够去除图像中的噪声、马赛克,修复划痕或模糊区域,恢复细节,使面部图像接近原始清晰度和色彩。色彩化:能够将黑白或单色图像转换为彩色,赋予历史照片新的生命。破损图像修复:对于缺失部分或涂鸦破坏的图像,CodeFormer能进行智能修复,尽可能恢复原貌。多人图像增强:不仅适用于单人图像,也能处理包含多个人物的图片,提升整体图像质量。自动编码器技术:利用自动编码器实现图像变换,包括清晰化和色彩调整,优化图像视觉效果。2、视频处理视频增强去码:针对视频中的模糊、抖动、颜色失真等问题,CodeFormer能提供修复,提升视频的清晰度和稳定性。超分辨率重建:能够将低分辨率视频升级到高分辨率,改善观看体验。帧级处理:逐帧分析和修复视频,确保整个视频的一致性和高质量。CodeFormer的安装步骤是什么?1、确保Python环境:首先,需要安装Python 3.8版本。你可以直接从Python官网下载Python 3.8,避免使用最新版本以防止潜在的依赖问题。或者,选择安装Anaconda,它是一个包含Python和众多科学计算库的发行版,便于管理环境。安装Anaconda后,创建一个名为codeformer的虚拟环境,指定Python版本为3.8。2、安装Git:下载并安装Git,这是一个版本控制系统,用于从GitHub上克隆CodeFormer的源代码。3、安装PyTorch:对于PyTorch的安装,推荐使用命令行工具(如Anaconda Prompt而非普通CMD),输入特定命令安装PyTorch,确保选择与你的Python环境兼容的版本。如果遇到“conda”命令不可用的问题,确保在Anaconda Powershell Prompt中执行安装命令。4、克隆CodeFormer源码:打开终端(如Windows的CMD或Anaconda Prompt),使用git clone https://github.com/sczhou/CodeFormer命令将CodeFormer项目从GitHub复制到本地。5、安装依赖库:进入克隆后的CodeFormer文件夹,通过运行pip install -r requirements.txt -q来安装所有必需的Python库。如果遇到安装速度慢的问题,可以使用国内的镜像站,如清华大学的TUNA镜像,通过添加-i https://pypi.tuna.tsinghua.edu.cn/simple来加速下载。但需注意,某些库可能在特定镜像站中不可用,如tb-nightly,这时可能需要单独从其他镜像站如阿里云下载。6、配置环境:确保所有操作都在CodeFormer的项目目录下进行,避免路径错误。7、额外处理:如果在使用镜像站时遇到特定库无法安装的问题,比如tb-nightly,需要单独处理,例如使用阿里云的镜像安装该库。完成上述步骤后,理论上CodeFormer的环境就搭建完成了,接下来可以按照项目文档的指示进行模型的编译和使用,以便开始人脸修复或其他图像处理任务。对于不熟悉编程的用户,推荐直接使用官方提供的在线服务,以更简单的方式体验CodeFormer的功能。 相关资讯: 如何使用CodeFormer修复老旧照片和去除马赛克?
150