Ai开源项目

共 127 篇网址
MindSearch

MindSearch

MindSearch简介 MindSearch 是一个开源的 ai 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。您可以轻松部署它来构建您自己的搜索引擎,可以使用闭源 LLM(如 GPT、Claude)或开源 LLM(如 InternLM2.5-7b-chat)。MindSearch特性:任何想知道的问题:MindSearch通过搜索解决你在生活中遇到的各种问题深度知识探索:MindSearch通过数百网页的浏览,提供更广泛、深层次的答案透明的解决方案路径:MindSearch 提供了思考路径、搜索关键词等完整的内容,提高回复的可信度和可用性。多种用户界面:为用户提供各种接口,包括React、Gradio、Streamlit 和本地调试。根据需要选择任意类型。动态图构建过程:MindSearch将用户查询分解为图中的子问题节点,并根据 WebSearcher 的搜索结果逐步扩展图。MindSearch 有什么新功能?具有大型语言模型的最强大的答案引擎之一(LLM )。询问您想知道的一切:MindSearch旨在解决您生活中的任何问题并利用网络知识深入的知识发现:MindSearch浏览数百个网页来回答您的问题,提供更深更广的知识库答案详细解决路径:MindSearch 公开所有详细信息,允许用户检查他们想要的所有内容。这极大地提高了最终响应的可信度以及可用性多代理LLM框架:多个之间的无缝集成LLM代理,可在1分钟内实现300+网页浏览全部开源:每一段代码都是开源的,拥抱一种对新想法和贡献持开放态度的文化。部署您自己的答案引擎!优化UI体验:为用户提供各种接口,包括React、Streamlit、Terminal。根据您的需要选择任何类型与其他人工智能搜索引擎相比,基于 ChatGPT-Web、Perplexity.ai (Pro) 和 MindSearch 生成的响应的深度、广度和真实性来比较,更符合人类的偏好。 相关资讯: 10款开源AI搜索引擎项目合集
160
Deep Live Cam

Deep Live Cam

Deep Live Cam简介 Deep Live Cam是一款开源的实时人脸交换和一键视频换脸工具。它能够利用单张图像对视频或其他图像进行人脸替换,适用于视频制作、动画创作等多种场景。Deep Live Cam非常适合视频制作和创意项目,使用户能够无缝替换视频或图像中的面孔。Deep Live Cam下载地址:https://github.com/hacksider/Deep-Live-CamDeep Live Cam 的主要特性和功能:实时换脸:该工具允许用户使用单个图像实时换脸,提供即时预览功能。此功能对于视频制作和动画项目特别有用。一键视频 Deepfakes :用户通过简单的操作即可快速轻松地生成高质量的 Deepfake 视频。这使得那些可能没有广泛技术知识的人也可以使用它。多平台支持:Deep Live Cam支持各种执行平台,包括CPU、NVIDIA CUDA、Apple Silicon (CoreML)、DirectML (Windows) 和 OpenVINO (Intel)。这种灵活性使其能够适应不同的硬件设置,根据用户的配置优化性能。社区和支持:Deep Live Cam 受益于活跃的社区,该社区提供持续的支持和改进,使该工具始终处于技术前沿。网络摄像头模式:Deep Live Cam支持使用网络摄像头进行实时视频流处理,只需按照屏幕截图中的点击操作即可:1、选择一张脸2、点击直播3、等待几秒钟(需要较长时间,通常需要10到30秒才能显示预览)此功能对于直播或虚拟会议非常有用。Deep Live Cam如何工作?1、选择源图像:上传一张包含所需人脸的图片作为源图像。2、选择目标:选择要进行换脸的目标图片或视频。3、开始处理:点击'Start'按钮,Deep Live Cam将自动进行人脸替换处理。Deep Live Cam常见问题什么是Deep Live Cam?Deep Live Cam是一款开源的实时人脸交换和一键视频深伪工具。它能够利用单张图像对视频或其他图像进行人脸替换,适用于视频制作、动画创作等多种场景。Deep Live Cam的主要功能有哪些?Deep Live Cam的主要功能包括:1)实时人脸交换;2)一键视频深伪;3)多平台支持;4)防不当使用措施。如何使用Deep Live Cam?使用Deep Live Cam的基本步骤是:1)安装所需环境;2)克隆GitHub仓库;3)下载所需模型;4)安装依赖;5)运行程序;6)选择源图像和目标;7)开始换脸处理。Deep Live Cam支持哪些平台?Deep Live Cam支持多种执行平台,包括CPU、NVIDIA CUDA、Apple Silicon(CoreML)、DirectML(Windows)、OpenVINO(Intel)等。用户可以根据自己的硬件配置选择最优的执行平台。Deep Live Cam如何保证不被滥用?Deep Live Cam内置了检查机制,防止对不适当内容(如裸露、暴力、敏感材料等)进行处理。开发者承诺在法律和伦理框架内持续发展项目,并在必要时采取措施(如在输出中添加水印)以防止滥用。Deep Live Cam是免费的吗?是的,Deep Live Cam是一个开源项目,完全免费使用。您可以在GitHub上获取源代码并自由使用。我可以将Deep Live Cam用于商业目的吗?Deep Live Cam是开源项目,但对于商业用途,您需要仔细阅读项目的许可证条款。此外,使用深伪技术可能涉及法律和道德问题,建议在商业应用前咨询法律专业人士。Deep Live Cam需要多高的配置?Deep Live Cam的性能会随硬件配置而变化。基本功能可在普通CPU上运行,但为获得更好的性能和效果,建议使用支持CUDA的NVIDIA显卡或Apple Silicon芯片的设备。Deep Live Cam支持实时视频流处理吗?是的,Deep Live Cam支持实时视频流处理。您可以使用摄像头进行实时换脸,程序会提供实时预览功能。如何提高Deep Live Cam的换脸效果?要提高换脸效果,可以尝试以下方法:1)使用高质量、清晰的源图像;2)选择角度和光线相近的源图像和目标;3)调整程序的参数设置;4)使用性能更强的硬件来运行程序。
160
EasyPhoto

EasyPhoto

EasyPhoto简介 EasyPhoto是一款Webui UI插件,用于生成ai肖像画,该代码可用于训练与您相关的数字分身。建议使用 5 到 20 张肖像图片进行训练,最好是半身照片且不要佩戴眼镜(少量可以接受)。训练完成后,我们可以在推理部分生成图像。我们支持使用预设模板图片与上传自己的图片进行推理。重点EasyPhoto是一个Webui UI插件,可以生成AI肖像,用于训练与用户相关的数字化替身。EasyPhoto现在支持多人生成和不同基础模型的训练和推理。EasyPhoto可以在Windows和Linux系统上运行,需要大约60GB的硬盘空间用于保存权重和数据集处理。EasyPhoto插件可以从GitHub安装,未来也将支持从Available安装。EasyPhoto的使用包括模型训练和推理两部分,用户可以上传5到20张照片进行训练,推理部分可以选择单人或多人模式。EasyPhoto的算法包括建筑概览、训练详解和推理详解三部分,主要通过稳定扩散模型和Lora模型生成个性化的肖像图像。
150
StreamRAG

StreamRAG

StreamRAG简介 StreamRAG,一个视频搜索和流媒体代理工具,StreamRAG 使您能够在 ChatGPT 中与您的视频库聊天并观看视频流。StreamRAG能够在数百小时的视频内容中找到你输符合你需求的相关视频时刻,并立即返回一个视频剪辑,也就是说它能搜索视频内容的任意时刻。StreamRAG能够迅速浏览存储的大量视频资料,找到包含这些内容或主题的视频片段,并把这些片段展示给你,这样你就能直接观看到与你搜索内容相关的视频部分。StreamRAG有什么作用?StreamRAG允许用户上传视频,创建视频集合,并在这些视频中进行搜索,以获得实时的视频回应或编辑。此外,用户还可以将他们的视频集合发布到ChatGPT商店,以便他人搜索和使用。视频库创建: 上传多个视频以创建视频库或集合。视频搜索与回应: 在这些视频中搜索,能立即获得实时的视频响应或编译结果。GPTs发布: 在ChatGPT的GPT商店发布你的可搜索集合,这意味着您可以与更广泛的受众分享您丰富的视频内容,或者将其保留为个人专用或在选定的群组中。文本回答总结(RAG): 接收总结性的摘要文本答案 (RAG)。视频关键洞察: 从特定视频中获得关键见解,例如“第31集的要点”。开源且易于使用:StreamRAG 是开源的,确保它可以访问和修改以满足您的所有需求。即使您不熟悉 ai 和视频数据库,StreamRAG 的设计也易于用户友好且易于实施。StreamRAG如何使用?1、获取 API 密钥:在 VideoDB 控制台上注册(前 50 次上传免费,没有 需要信用卡)。2、设置VIDEO_DB_API_KEY:在文件中输入您的密钥。env3、安装依赖项:在终端中运行。4、将集合上传到 VideoDB:在 中添加链接。upload.py5、在本地运行:使用 启动 flask 服务器。python app.py
150
Meilisearch

Meilisearch

Meilisearch简介 Meilisearch ,快如闪电的搜索引擎,可轻松融入您的应用程序、网站和工作流程,Meilisearch 可帮助您快速打造令人愉悦的搜索体验,提供开箱即用的功能来加快您的工作流程。Meilisearch 特点混合搜索:结合语义搜索和全文搜索的优点以获得最相关的结果键入即搜索:在 50 毫秒内查找并显示结果,提供直观的体验拼写错误容忍度:即使查询包含拼写错误和拼写错误,也能获得相关匹配过滤和分面搜索:通过自定义过滤器增强用户的搜索体验,并用几行代码构建分面搜索界面排序:根据价格、日期或用户需要的几乎任何其他内容对结果进行排序同义词支持:配置同义词以在搜索结果中包含更多相关内容地理搜索:根据地理数据过滤和排序文档广泛的语言支持:搜索任何语言的数据集,优化支持中文、日语、希伯来语和使用拉丁字母的语言安全管理:使用允许细粒度权限处理的 API 密钥控制哪些用户可以访问哪些数据多租户:为任意数量的应用程序租户提供个性化搜索结果高度可定制:根据您的特定需求定制美丽搜索或使用我们开箱即用且无忧的预设RESTful API:将Meilisearch与我们的插件和SDK集成到您的技术堆栈中易于安装、部署和维护Meilisearch 应用:电影 — 一款可帮助您使用混合搜索找到观看电影的流媒体平台的应用程序。电子商务 - 使用析取方面、范围和评级过滤以及分页的电子商务网站。歌曲 — 搜索 4700 万首歌曲。SaaS — 在此多租户 CRM 应用程序中搜索联系人、交易和公司。Meilisearch 是由 Meili 创建的搜索引擎,Meili 是一家总部位于法国、团队成员遍布世界各地的软件开发公司,Meilisearch 现在是、也将永远是开源的!
150
EchoMimic

EchoMimic

EchoMimic简介 EchoMimic是一个蚂蚁集团支付宝基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节,可用于虚拟主播、视频编辑等,效果比SadTalker、MuseTalk好,表情更丰富动作更顺畅。EchoMimic可以根据人像面部特征和音频来帮人物对口型,结合面部标志点和音频内容生成较为稳定、自然的视频。EchoMimic功能:音频驱动动画,可以根据音频生成人物肖像的动画,比如唱歌、说话视频等。姿势驱动动画,可以根据姿势数据生成人物肖像的动画。音频和姿势混合驱动动画,可以同时使用音频和姿势数据来生成动画。WebUI 和 GradioUI,提供图形界面,易于使用。可编辑的标志调节:用户可以选择特定的面部标志来控制动画,提供更大的灵活性和定制性。支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。EchoMimic应用:肖像图像动画:使用音频输入从静态图像创建动态视频,可用于娱乐、虚拟化身和数字通信。增强稳定性和自然度:通过结合两种输入,克服音频驱动方法的不稳定性和关键点驱动方法的不自然性。可定制的动画:用户可以编辑特定的面部标志以实现所需的动画效果。ComfyUI EchoMimic:https://github.com/smthemex/ComfyUI_EchoMimicEchoMimic项目:https://badtobest.github.io/echomimic.htmlEchoMimic Github:https://github.com/BadToBest/EchoMimicEchoMimic模型:https://huggingface.co/BadToBest/EchoMimicEchoMimic 由蚂蚁集团支付宝终端技术部开发的音频输入驱动创建逼真肖像动画的技术。它使用可编辑的地标调节来实现逼真的面部动作和表情,从而实现高度可定制且外观自然的动画。
150
RMBG-2.0

RMBG-2.0

RMBG-2.0简介 RMBG-2.0是由BRIA ai开发的开源图像背景移除模型,它通过卷积神经网络(CNN),来实现高精度的前景与背景分离。RMBG-2.0模型在精心挑选的数据集上进行了训练,包括:一般图像、电子商务、游戏和广告内容,使其适用于支持大规模企业内容创建的商业用例。其准确性、效率和多功能性目前可与领先的 Source Available 型号相媲美。RMBG-2.0主要功能:高精度背景移除:能够准确地从各种类型的图像中分离前景对象。商业用途支持:适用于电子商务、广告设计和游戏开发等领域,支持大规模的企业级内容创作。云服务器无关架构:设计灵活,可以在不同的云平台和服务器上运行,便于扩展。多模态归因引擎:通过处理多种类型的数据(如图像与文本),增强模型的泛化能力,提高背景移除的准确性。数据训练平台:支持大规模数据训练,持续提升模型性能。RMBG-2.0技术原理与特性:深度学习基础:基于深度学习,尤其是CNN,来识别和分离前景与背景。数据训练:在大量标注数据上训练,学习精确的前景背景区分。多模态处理:利用多模态数据提高模型理解图像内容的能力。云无关性:确保模型的部署不依赖特定云环境,增加灵活性。数据烘焙:通过数据增强和预处理,提升模型对新场景的适应性和鲁棒性。RMBG-2.0如何使用?使用该模型只需简单的Python库调用,使用者可以方便地对图像进行背景去除,例如,通过Hugging Face的库加载模型,并进行图像预处理,即可实现背景移除。用户需要安装torch、torchvision、pillow、kornia和transformers等依赖库。RMBG-2.0许可与应用:RMBG-2.0以Creative Commons许可供非商业使用,商业应用需与BRIA签订协议。相比于前代版本,RMBG-2.0的准确率显著提升,从73.26%增加到90.14%,超越了一些知名的商业工具,如remove.bg。
150
Cody Former

Cody Former

Cody Former简介 CodeFormer是一个高级的人工智能图像处理工具,Cody Former专注于面部修复、图片清晰化以及视频去除马赛克和修复。CodeFormer利用了先进的ai技术,包括基于Transformer的架构和注意力机制,能够有效地分析和处理图像,使之恢复如新,增强颜色,恢复面部细节,并减少照片中的噪点。CodeFormer特别适用于老照片的修复,使得珍贵的记忆得以生动再现。CodeFormer作为一个开源项目,在GitHub上可以找到其源代码和相关文档,支持通过GPU或CPU进行加速处理,但使用GPU需要确保系统配置满足CUDA和cuDNN的要求。对于非技术用户,它也提供了图形界面的一键安装版本,简化了安装和使用流程。此外,CodeFormer在处理效果上被广泛认为是非常强大的,能够实现马赛克去除,提升图像质量,甚至在视频修复领域也有出色表现。CodeFormer项目地址:https://shangchenzhou.com/projects/CodeFormer/ CodeFormer下载地址:https://github.com/sczhou/CodeFormerCodeFormer主要功能特征:1、图像修复与增强人脸修复:特别擅长处理低质量、模糊或损坏的面部图像,能够去除图像中的噪声、马赛克,修复划痕或模糊区域,恢复细节,使面部图像接近原始清晰度和色彩。色彩化:能够将黑白或单色图像转换为彩色,赋予历史照片新的生命。破损图像修复:对于缺失部分或涂鸦破坏的图像,CodeFormer能进行智能修复,尽可能恢复原貌。多人图像增强:不仅适用于单人图像,也能处理包含多个人物的图片,提升整体图像质量。自动编码器技术:利用自动编码器实现图像变换,包括清晰化和色彩调整,优化图像视觉效果。2、视频处理视频增强去码:针对视频中的模糊、抖动、颜色失真等问题,CodeFormer能提供修复,提升视频的清晰度和稳定性。超分辨率重建:能够将低分辨率视频升级到高分辨率,改善观看体验。帧级处理:逐帧分析和修复视频,确保整个视频的一致性和高质量。CodeFormer的安装步骤是什么?1、确保Python环境:首先,需要安装Python 3.8版本。你可以直接从Python官网下载Python 3.8,避免使用最新版本以防止潜在的依赖问题。或者,选择安装Anaconda,它是一个包含Python和众多科学计算库的发行版,便于管理环境。安装Anaconda后,创建一个名为codeformer的虚拟环境,指定Python版本为3.8。2、安装Git:下载并安装Git,这是一个版本控制系统,用于从GitHub上克隆CodeFormer的源代码。3、安装PyTorch:对于PyTorch的安装,推荐使用命令行工具(如Anaconda Prompt而非普通CMD),输入特定命令安装PyTorch,确保选择与你的Python环境兼容的版本。如果遇到“conda”命令不可用的问题,确保在Anaconda Powershell Prompt中执行安装命令。4、克隆CodeFormer源码:打开终端(如Windows的CMD或Anaconda Prompt),使用git clone https://github.com/sczhou/CodeFormer命令将CodeFormer项目从GitHub复制到本地。5、安装依赖库:进入克隆后的CodeFormer文件夹,通过运行pip install -r requirements.txt -q来安装所有必需的Python库。如果遇到安装速度慢的问题,可以使用国内的镜像站,如清华大学的TUNA镜像,通过添加-i https://pypi.tuna.tsinghua.edu.cn/simple来加速下载。但需注意,某些库可能在特定镜像站中不可用,如tb-nightly,这时可能需要单独从其他镜像站如阿里云下载。6、配置环境:确保所有操作都在CodeFormer的项目目录下进行,避免路径错误。7、额外处理:如果在使用镜像站时遇到特定库无法安装的问题,比如tb-nightly,需要单独处理,例如使用阿里云的镜像安装该库。完成上述步骤后,理论上CodeFormer的环境就搭建完成了,接下来可以按照项目文档的指示进行模型的编译和使用,以便开始人脸修复或其他图像处理任务。对于不熟悉编程的用户,推荐直接使用官方提供的在线服务,以更简单的方式体验CodeFormer的功能。 相关资讯: 如何使用CodeFormer修复老旧照片和去除马赛克?
150
MagicEdit

MagicEdit

MagicEdit 简介 MagicEdit 是字节跳动的一款视频编辑工具,它可以高保真度和时间连贯性地编辑视频,通过学习明确区分外观和动作,实现高质量的视频编辑,对视频内容和流畅度的控制更加精细。MagicEdit有多种编辑应用,包括视频风格化、局部编辑、视频混合和视频扩展等功能。MagicEdit 可以让用户可以将源视频转换为具有特定风格的新视频,也可以对视频进行局部修改,或者通过视频混合功能创造出新概念,MagicEdit还支持视频扩展功能,可以在不重新训练的情况下进行视频扩展任务。同时,MagicEdit 还提供了方便的素材管理功能,让用户可以轻松组织和复用素材。整个编辑过程流畅快速,让用户可以更高效地完成视频编辑任务。MagicEdit功能:视频造型 - 将源视频转换成新风格或场景的视频局部编辑 - 局部修改视频而保持其他区域不变视频混合 - 混合两个不同概念的视频创造新概念视频扩充 - 不需要重新训练即可实现视频扩充
140
M2UGen

M2UGen

M2UGen简介 腾讯发布多模态音乐生成模型M2UGen 支持图片、视频生成音乐,M2UGen是一款引领潮流的框架,融合了音乐理解和多模态音乐生成任务,旨在助力用户进行音乐艺术创作。通过其强大的功能,M2UGen提供了全方位的音乐生成和编辑体验。M2UGen演示地址:https://huggingface.co/M2UGenM2UGen项目地址:https://github.com/shansongliu/M2UGenM2UGen论文地址:https://arxiv.org/abs/2311.11255M型2UGen模型是一种音乐理解和生成模型,能够从文本,图像,视频和音频中进行音乐问答和音乐生成,以及音乐编辑。 该模型利用编码器,如用于音乐理解的 MERT、用于图像理解的 ViT 和用于视频理解的 ViViT,以及 MusicGen/AudioLDM2 模型作为音乐生成模型(音乐解码器),以及适配器和 LLaMA 2 模型。音乐的产生和理解我们介绍M2UGen框架,能够同时 包括音乐理解和多模态音乐生成任务, 旨在协助用户进行与音乐相关的艺术创作。面向音乐的数据集我们提出了一种系统化的方法,用于生成大面向多模态音乐的指令数据集,我们使用 MU-LLaMA 模型和 MosaicML 的 MPT-7B-Chat 模型来生成面向音乐的数据集。我们还利用BLIP图像字幕模型和VideoMAE字幕模型来为各自的模态添加字幕。除了可以从文字生成音乐外,它还支持图像、视频和音频生成音乐,并且还可以编辑已有的音乐。该项目利用了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。用户可以轻松移除或替换特定乐器,调整音乐的节奏和速度。这使得用户能够创造出符合其独特创意的音乐作品。此外,M2UGen还加入了适配器和LLaMA2模型,使得该模型具备多种能力。
140
Media2Face

Media2Face

Media2Face简介 在人工智能领域,从语音中创建准确的面部唇部动作一直是一个持续的挑战。然而,突破已经到来——Media2Face。Media2Face是通过音频、文本和图像多模态引导的共语言面部动画生成工具。它利用音频、文本和图像输入的引导来自然地模仿人类语言,引入了广义神经参数面部资产 (GNPFA)。这是一种高效替在空间,从而解耦表情和身份。然后,我们利用GNPFA从大量视频中提的变分自动编码器,可将面部几何形状和图像映射到高度广义的表情取高质量的表情和准确的头部姿势。由于高质量的 4D 面部数据有限,从语音合成 3D 面部动画面临着挑战。然而,借助 Media2Face,现在可以从任何音频、图像或文本输入无缝生成逼真且富有表现力的面部动画。Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如情感调整,“快乐”或“悲伤”等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。Media2Face实际应用:创造对话场景:根据你写的剧本,电脑可以生成人物对话的动画场景。制作风格化的面部动画:你可以给电脑一个表情符号,它就能根据这个符号创造出动画。情感歌唱:电脑还能根据不同的语言唱歌,表现出对应的情感。个性化动画:最神奇的是,这个项目能够创造出符合不同人种、年龄和性别的个性化面部动画。影视制作公司使用Media2Face生成影片中虚拟人物的面部动画。虚拟主持平台利用Media2Face实现虚拟主持的面部表情生成。游戏开发公司在虚拟角色设计中应用Media2Face进行面部动画生成。Media2Face是如何工作的?Media2Face项目的工作原理涉及几个关键技术和步骤,使其能够从语音合成出具有丰富表情和情感的3D面部动画。下面是该项目的主要工作流程:1. 通用神经参数化面部资产(GNPFA):首先,研究团队创建了一个特殊的工具(叫做GNPFA),它就像一个大型的面部表情数据库。无论你想要什么样的表情,这个工具都能帮你找到,并且还能确保每个人的面部动画都独一无二,不会和别人混淆。这个过程实现了表情和身份的解耦,即能够在不同的身份之间转换相同的表情。然后,他们用这个工具处理了很多视频,从中提取出了高质量的表情和头部动作。这样就创建了一个巨大的数据集,里面包含了各种各样的面部动画和对应的情感、风格标签。2. 多模态引导的动画生成:Media2Face采用一个扩散模型在GNPFA的潜在空间中进行动画生成,这个模型能够接受来自音频、文本和图像的多模态引导。模型将音频特征和CLIP潜在代码作为条件,与表情潜在代码序列的噪声版本以及头部运动代码(即头部姿势)一起去噪。条件被随机掩蔽,并通过与噪声头部运动代码的交叉注意力进行处理。3. 表情和头部姿势生成:利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势。这呈现了 M2F-D 数据集,这是一个大型、多样化和扫描级别的共同语音3D面部动画数据集,具有注释良好的情感和风格标签。4.表情和风格微调:通过表情编码器提取关键帧表情潜在代码,并通过CLIP提供每帧的风格提示,如“快乐”或“悲伤”,用户可以调整动画的强度和控制范围。通过以上这些技术步骤,Media2Face能够生成与语音同步的、表现力丰富的3D面部动画,支持复杂的情感表达和风格变化,为创建虚拟角色和增强AI数字人的交互体验提供了强大工具,大量实验表明,Media2Face不仅在面部动画合成中实现了高保真度,而且拓宽了3D面部动画的表现力和风格适应性。
140
OOTDiffusion

OOTDiffusion

OOTDiffusion简介 OOTDiffusion:一个高度可控的虚拟服装试穿开源工具,可以根据不同性别和体型自动调整,和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果,OOTDiffusion支持半身模型和全身模型两种模式。OOTDiffusionGitHub:https://github.com/levihsu/OOTDiffusionOOTDiffusion核心功能:OOTDiffusion基于潜在扩散模型技术,实现了高质量的服装图像生成和融合,确保试穿效果自然且逼真。OOTDiffusion支持两种模型虚拟试穿,一个是半身模型,专为上半身的服装试穿设计,适合T恤、衬衫等上身服装。另外一个是全身模型,支持全身的服装试穿,包括上身、下身和连衣裙等服装类型,用户可以根据需求选择适合的模型进行试穿。OOTDiffusion支持参数调整,你可以通过调整模型路径、服装路径、缩放比例和采样次数等参数来精细控制试穿的细节和效果,以满足不同的试穿需求。通过精心设计的算法,OOTDiffusion能够将选定的服装自然且逼真地融合到用户提供的模型图像中,无论是纹理、光影还是服装的自然摆动都能精确呈现。不过,试玩一下后,发现用OOTDiffusion自己的DEMO图片效果非常好,换了自已上传的素材,效果差很多,说明对人像位置体型,以及服装款式的要求还是比较高的。OOTDiffusion如何用?选择好性别、体型和右边的服装,然后点下面的RUN按钮,稍等十几秒就可以生成了。
140
StreamMultiDiffusion

StreamMultiDiffusion

StreamMultiDiffusion简介 StreamMultiDiffusion,一个使用区域文本提示来实时生成图像的项目,主要用于图像生成和编辑应用。它基于扩散模型在文本到图像合成中的成功,旨在通过减少推理时间和提高生成图像的质量来提高扩散模型的可用性。该方法专注于基于紧密和粗糙区域的生成,以及文本到全景的生成,并且它可以与用户提供的精确分割掩模一起使用,过程涉及基于优化任务的新生成过程,该优化任务将多个扩散路径绑定在一起以进行受控图像生成。也就是你可以通过在多个特定区域内分别输入不同的文本提示来指导ai画图,一个提示负责一个区域,精准控制而且这个过程是交互式的,实时完成,你能立马看到生成效果,非常炸裂。StreamMultiDiffusion主要特性和应用:实时交互式生成:StreamMultiDiffusion 通过基于区域的语义控制实现实时交互式生成,使其适用于各种最终用户应用程序的图像生成和编辑。基于区域的语义控制:该方法可以使用紧密、准确的分割掩模和粗糙掩模,为具有不同图像编辑专业知识水平的用户提供灵活性。文本到全景生成:StreamMultiDiffusion 可用于文本到全景生成,生成具有无缝过渡的高质量全景图像。图像质量优化任务:该方法涉及一个优化任务,将不一致的方向融合到全局去噪步骤中,从而产生高质量的无缝图像。语义调色板:引入了一种新的绘画范式,用户不仅可以绘制颜色,还可以绘制具有特定语义的内容,例如“蓝天”、“绿草”等,从而在创作过程中加入更丰富的意义层次。图像修复和编辑:提供了实时图像修复和编辑功能,用户可以在任何上传的照片或艺术作品上进行绘画,自由修改和美化现有图像。这些优势使 StreamMultiDiffusion 成为适用于各种最终用户应用程序的多功能且强大的工具,在实时图像生成和编辑方面提供可用性和质量。StreamMultiDiffusion实施与整合StreamMultiDiffusion 集成到扩散器中,可以使用特定流程运行。它还为其方法提供了Gradio UI,允许用户通过用户友好的界面与生成过程进行交互。此外,该方法通过网络演示提供空间控制,为用户提供进一步的灵活性和定制选项。StreamMultiDiffusion限制和建议值得注意的是,StreamMultiDiffusion 最适合生成 2048 x 512 的全景景观图像。此外,该方法还针对切片大小和重叠提供了具体建议,以优化速度和图像质量。例如,在 MultiDiffusion 3 的情况下,建议选择 64 - 160 之间的图块大小值和 32 或 48 之间的重叠值。StreamMultiDiffusion作为一款用于实时交互式图像生成和编辑的强大工具,提供基于区域的语义控制、文本到全景生成和空间控制等功能,同时还提供最佳使用建议。
140
StoryDiffusion

StoryDiffusion

StoryDiffusion简介 StoryDiffusion 是一款由南开大学HVision团队开发的人工智能工具,主要功能包括生成连贯的图像和视频故事,以及漫画生成创作。StoryDiffusion利用一致性自注意力(Consistent Self-Attention)技术,能够在无需训练的情况下生成主题一致的图像,这些图像可以用于讲述故事或作为后续内容生成的输入。StoryDiffusion 能够保持角色的一致性,生成多图漫画和长视频,这对于需要连贯叙事的广告、电影等领域尤为重要。StoryDiffusion主要功能特征:角色连贯性保持:StoryDiffusion能够通过一致性自注意力机制生成主题一致的图像和视频,确保在多图漫画和长视频中角色风格和服装的一致性,从而实现连贯的故事叙述。多场景应用:该工具不仅适用于漫画生成,还可以应用于图像转视频等多种场景。用户可以通过提供一系列条件图像,利用Image-to-Video模型生成视频,这对于广告、电影等领域提供了新的创意方式和制作手段。教育材料设计:教育工作者可以使用StoryDiffusion来设计教育视频或互动故事,这些内容有助于提高学习者的参与度和兴趣。长范围图像生成功能:特别适合制作连贯的广告故事,增强品牌形象。这种功能使得StoryDiffusion在广告和品牌推广方面具有显著优势。即插即用无需训练:研究团队将一致性自注意力插入到现有图像生成模型的U-Net架构中,并重用原有的自注意力权重,以保持无需训练和即插即用的特性。高效能与稳健性:StoryDiffusion在保持角色特性的同时,还能够很好地符合提示描述,显示出其稳健性。这表明该方法在定量指标上取得了最佳性能。StoryDiffusion通过一致性自注意力机制,不仅能够生成连贯的图像和视频,还能应用于多种实际场景,如教育、广告和娱乐等,同时具备高效能和稳健性。GitHub 项目:相关项目已经在 GitHub 上获得了 1k 的 Star 量,GitHub 地址为:https://github.com/HVision-NKU/StoryDiffusion。论文和演示:有关 StoryDiffusion 的更多技术细节和实验结果可以在论文《StoryDiffusion: Consistent Self-Attention for long-range image and video generation》中找到,论文地址为:https://arxiv.org/pdf/2405.01434v1
140
FreeAskInternet

FreeAskInternet

FreeAskInternet简介 FreeAskInternet 是一个完全免费、私有且本地运行的搜索聚合器,并使用 LLM 生成答案,无需 GPU。用户可以提出问题,系统将使用searxng进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。所有进程都在本地运行,不需要 GPU 或 Openai 或 Google API 密钥。FreeAskInternet特征:完全免费(不需要任何API密钥)完全本地化(无需GPU,任何计算机都可以运行)完全私有(所有内容都在本地运行,使用自定义 llm)无需 LLM 硬件即可运行(无需 GPU!)使用免费的 ChatGPT3.5 / Qwen / Kimi / ShipuAI(GLM) API(无需 API 密钥!感谢 OpenAI)自定义 LLM(ollama,llama.cpp) 支持,是的,我们喜欢 ollama!使用 Docker Compose 快速轻松地部署Web 和移动友好界面,专为 Web 搜索增强的 AI聊天而设计,允许从任何设备轻松访问。FreeAskInternet怎么运行的?1、系统在FreeAskInternet UI界面(本地运行)中获取用户输入的问题,并调用searxng(本地运行)在多个搜索引擎上进行搜索。2、抓取搜索结果链接内容并传递给ChatGPT3.5/Kimi/Qwen/ZhipuAI/ollama(使用自定义llm),要求LLM以此内容为参考回答用户问题。3、将答案传输到聊天 UI。4、我们支持自定义 LLM 设置,因此理论上无限的 llm 支持。
140
LabelU

LabelU

LabelU简介 LabelU是一个开源的数据标注工具,它可以帮助用户快速、准确、高效地对数据进行标注,从而提高机器学习模型的性能和质量。LabelU支持多种标注类型,包括标签分类、文本描述、拉框、多边形、点、线、立体框、时间戳、片段分割等。LabelU可以自由组合多样工具,无缝兼容多格式数据,同时支持载入预标注,加速数据标注效率,满足不同场景和需求的标注任务。LabelU主要特征:多功能图像注释工具:LabelU 提供了一套全面的图像标注工具,包括 2D 边界框、语义分割、折线和关键点。这些工具可以灵活解决物体检测、场景分析、图像识别、机器翻译等多种图像处理任务,帮助用户高效识别、注释和分析图像。强大的视频标注能力:在视频标注领域,LabelU展示了令人印象深刻的处理能力,支持视频分割、视频分类和视频信息提取。非常适合视频检索、视频摘要、动作识别等应用,使用户能够轻松处理长时长视频,准确提取关键信息,并支持复杂场景分析,为后续模型训练提供高质量的标注数据。高效的音频注释工具:音频注释工具是 LabelU 的另一个关键功能。这些工具具备高效、精准的音频分析能力,支持音频分割、音频分类、音频信息提取。通过可视化复杂的声音信息,LabelU 简化了音频数据处理工作流程,有助于开发更准确的模型。LabelU特征:简单:提供多种图像标注工具,通过简单的可视化配置即可进行标注。灵活性:多种工具可以自由组合,满足大多数图像、视频、音频标注需求。通用性:支持导出多种数据格式,包括JSON、COCO、MASK。LabelU注册与登录:在线版可通过“手机验证码”注册登录,也可使用“手机号/邮箱+密码”的方式注册登录。离线版账号信息存储在本地电脑,可通过用邮箱注册来进行登录。LabelU应用:用于自动驾驶的图像数据标注,从而训练车辆识别模型。对音频数据进行时间戳标注,提高语音识别或语音转文字的准确性。在医疗影像中,对CT扫描图像进行标注,进行辅助疾病诊断。LabelU作为一个综合数据标注平台,专为处理多模态数据而设计。它提供了一系列先进的注释工具和高效的工作流程,使用户可以更轻松地处理涉及图像、视频和音频的注释任务。 LabelU专为满足复杂数据分析和模型训练的需求而量身定制。
140
AnimateDiff

AnimateDiff

AnimateDiff简介 AnimateDiff是一个能够将个性化的文本转换为图像的扩展模型,一款可以在stable diffusion中制作稳定gif动图的插件,它可以在无需特定调整的情况下实现动画效果。通过这个项目,用户可以直接通过文生图的形式就可以生成gif动图,将他们的想象力以高质量图像的形式展现出来,同时以合理的成本实现这一目标。随着文本到图像模型(例如,Stable Diffusion)和相应的个性化技术(例如,LoRA 和 DreamBooth)的进步,现在每个人都可以将他们的想象力转化为高质量的图像。随后,为了将生成的静态图像与运动动态相结合,对图像动画技术的需求也随之增加。而且从最终出图的品质来看,AnimateDiff生成的动图的表现非常的稳定,并且动图画面也很流程。AnimateDiff特点:1、AnimateDiff框架可以直接与现有的T2I模型集成,户不需要为每一个特定的任务或场景重新调整或训练模型。无需进行复杂的修改。2、AnimateDiff设计得足够灵活,可以与用户自己训练的T2I模型或从其他平台(例如Civitai或Huggingface)下载的模型集成。这为用户提供了极大的便利性,使他们可以轻松地使用AnimateDiff来增强他们现有的T2I模型。项目介绍:https://animatediff.github.io/代码:https://github.com/guoyww/animatediff/论文:https://arxiv.org/abs/2307.04725
140
CosyVoice

CosyVoice

CosyVoice简介 CosyVoice是一款基于语音量化编码的语音生成大模型,一个可以深度融合文本理解和语音生成的一项新型语音合成技术,它对语音进行离散化编码,并依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice能够精准解析并诠释各类文本内容,将其转化为宛如真人般的自然语音。你只需提供3~10s的原始音频,CosyVoice即可生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。CosyVoice项目官网:https://www.modelscope.cn/studios/iic/CosyVoice-300MCosyVoice源码地址:https://github.com/FunAudioLLM/CosyVoiceCosyVoice API地址:https://help.aliyun.com/zh/model-studio/developer-reference/cosvoice-large-model-for-speech-synthesis/?spm=a2c4g.11186623.0.0.56f01751Ke29mhCosyVoice功能特征:高度拟人化:采用阿里通义语音实验室自研的CosyVoice 生成式神经网络语音大模型算法,使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。多语言:CosyVoice支持中英日粤韩5种语言的生成,专注自然语音生成,支持多语言、音色和情感控制,效果显著优于传统语音生成模型。多样化音色选择:提供海量优质的音库资源,包括不同性别、年龄、方言以及各种特色声音,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃,还是故事讲述的情感丰富,都能轻松驾驭。实时高效合成:系统具有出色的响应速度和流式语音合成处理能力,无论是长篇文档还是短句指令,都能实现快速、准确的实时语音合成。情感和韵律控制:CosyVoice支持富语言声音事件以及多情感的高拟人语音生成,例如笑声、语气词等,以及不同情感表现的高拟人语音生成。声音克隆:只需提供3~10s的原始音频,CosyVoice即可克隆生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。CosyVoice应用:CosyVoice适用于多种应用场景,如智能客服、有声读物、车载导航、教育辅导等。智能设备/机器人播报的语音内容,如智能客服机器人、智能音箱、数字人、语音助手等。音视频创作中需要将文字转为语音播报的场景,如小说阅读、新闻播报、影视解说、剧本配音等。CosyVoice极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。同最近大火的ChatTTS对比,可以发现CosyVoice的合成音频在内容一致性上更高,CosyVoice对生成语音的情感、韵律进行细粒度的控制,生音频在情感表现力上得到明显提升,并且没有很少存在幻觉额外多字的现象。CosyVoice很好地建模了合成文本中的语义信息,在内容一致性和说话人相似度上超越人类。
140
AI Companion App

AI Companion App

AI Companion App简介 ai Companion App,一键创建和训练属于你的AI伴侣/女朋友。AI Companion App提供了一套框架和开源工具,你可以根据自己的需求和想象,设定AI伴侣的个性、背景故事和能力,然后使用这个框架进行训练和部署。这样,每个人都可以拥有一个定制的AI伴侣,满足他们特定的需求和期望。你可以在浏览器上或通过SMS与你的AI伴侣进行聊天。AI Companion App允许你确定你的伴侣的个性和背景故事,并使用一个带有相似性搜索的向量数据库来检索和提示,使对话具有更深的深度。它还通过将对话保留在队列中并包含在提示中,提供了一些对话记忆。AI Companion App当前包含两种AI伴侣,一种基于大模型GPT,另一种是基于Vicuna的伴侣,都托管在Replicate平台上的。这些伴侣有很多可能的用例-浪漫(AI女友/男友)、友谊、娱乐、教练等。您可以通过您撰写的背景故事和您选择的模型来引导您的同伴找到理想的用例。
130
VideoSrt

VideoSrt

VideoSrt简介 VideoSrt是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。基于Golang语言,使用lxn/walk Windows-GUI工具包开发的开源软件工具。适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。VideoSrt具有易用的界面和多种强大功能,使其成为处理媒体字幕的理想选择。VideoSrt需要注册阿里云账号,接入语音引擎,用于语音识别生成字幕文件(和Autosub-ahk功能一样,只不过Autosub-ahk接入的是Google Speech V2 API),也需要注册百度翻译开放平台账号或者腾讯云账号,接入翻译引擎,用于将英文字幕文件翻译为中文字幕文件,具体教程看GitHub简介VideoSrt应用场景:识别视频/音频的语音生成字幕文件(支持中英互译,双语字幕)提取视频/音频的语音文本批量翻译、过滤处理/编码SRT字幕文件VideoSrt优势:使用阿里云语音识别接口,准确度高,标准普通话/英语识别率95%以上视频识别无需上传原视频,方便快速且节省时间支持多任务多文件批量处理支持视频、音频常见多种格式文件支持同时输出字幕SRT文件、LRC文件、普通文本3种类型支持语气词过滤、自定义文本过滤、正则过滤等,使软件生成的字幕更加精准支持字幕中英互译、双语字幕输出,及日语、韩语、法语、德语、西班牙语、俄语、意大利语、泰语等支持多翻译引擎(百度翻译、腾讯云翻译)支持批量翻译、编码SRT字幕文件
130
8spAi系统

8spAi系统

8spAi系统简介 8spai系统集成了全模型AI问答、创作、绘画、文生图、思维导图一站搞定!GPT4对话识图、知识库训练、文档提问总结、DALLE-3绘图、Midjourney绘画动态全功能与思维导图自动生成等功能,为用户提供了智能化的服务和体验。8spAi系统已支持OpenAI GPT全模型+国内AI全模型+绘画池系统!8spAi助手是一款在线AI系统,该系统集成了丰富多样的功能,包括AI全模型智能问答、GPT4对话识图、知识库训练、文档提问总结、DALLE-3绘图、Midjourney绘画动态全功能与思维导图自动生成等。无论是在生活还是工作中,8spAi助手都能全方位满足用户的各种需求。让我们来看看该系统的功能特点:AI全模型智能问答:使用最新的AI技术,对用户提出的问题进行智能回答,提供准确的解答和建议。GPT4对话识图:通过对话交互的方式,能够对图片进行识别和解读,帮助用户理解图片内容。知识库训练:用户可以根据自己需求创建自己的知识库,并进行训练和优化,提供更准确的搜索结果和答案。文档提问总结:将大段文本进行分析和总结,提供关键信息和摘要,帮助用户快速了解文档内容。DALLE-3绘图:使用先进的DALLE-3绘图技术,能够生成高质量的图像作品,满足用户的创作需求。Midjourney绘画动态全功能:提供丰富的绘画工具和特效,让用户能够创作出生动有趣的动画作品。思维导图自动生成:根据用户输入的关键词或概念,自动生成思维导图,帮助用户整理和组织思维。8spAi优点:支持最新GPT-4多模态、OpenAI GPT-4-Turbo-With-Vision-128K模型(后续支持对话识图功能)支持最新OpenAI GPT-3.5-Turbo-1106、GPT-4-1106-Preview模型支持对话插件系统,后续逐步增加插件功能,扩展AI能力支持OpenAI DALL-E3文生图插件,可直接对话文生图,搭配GPT4-Turbo使用。通过这些功能,8spAi助手能够为用户提供智能化的服务和解决方案,提升工作效率,满足各种需求。无论是在学习、工作还是创作中,用户都能够依靠8spAi助手获得有力的支持和帮助。
130
LucidDreamer

LucidDreamer

LucidDreamer简介 随着VR设备和内容的广泛使用,对3D场景生成技术的需求越来越普遍。然而,现有的 3D 场景生成模型将目标场景限制在特定领域,这主要是因为它们使用的 3D 扫描数据集与现实世界相去甚远。为了解决这种局限性,我们提出了LucidDreamer,这是一个无域场景生成管道,它充分利用了现有大规模基于扩散的生成模型的强大功能。LucidDreamer项目地址:https://luciddreamer-cvlab.github.io/我们的 LucidDreamer 有两个交替步骤:做梦和对齐。首先,为了从输入生成多视图一致的图像,我们将点云设置为每次生成图像的几何参考。具体来说,我们将一部分点云投影到所需的视图,并提供投影作为使用生成模型进行修复的指导。使用估计的深度图将绘制的图像提升到 3D 空间,从而组成一个新点。其次,为了将新点聚合到3D场景中,我们提出了一种对齐算法,该算法将新生成的3D场景的各个部分和谐地集成在一起。最终得到的3D场景是优化高斯飞溅的初始点。与以前的 3D 场景生成方法相比,LucidDreamer 生成的高斯飞溅非常详细,对目标场景的域没有限制。LucidDreamer 可以接受一系列文本提示来生成场景,从而实现细粒度的控制。基于 CLIP 的 Stable Diffusion 生成的图像对生成的场景进行定量比较。 我们使用 CLIP-Score 和 CLIP-IQA 与 RGBD2 对结果进行定量比较。 对于 CLIP-IQA,我们使用质量、色彩鲜艳和清晰的标准。 LucidDreamer 在所有指标上都显示出占主导地位的结果。根据初始SfM点的来源重建高斯飞溅的度量。我们使用 COLMAP并比较重建结果。使用我们的点云始终如一地显示出更好的重建指标。
130
LibreChat

LibreChat

LibreChat简介 LibreChat,一个增强版的ChatGPT程序,一个免费开源的聊天机器人平台,集成了多种 ai 模型,例如 ChatGPT、OpenAI、BingAI、PaLM 2 等。 LibreChat 允许您与不同的 AI 进行自然且引人入胜的对话,并使用各种功能和插件定制您的体验。LibreChat还集成并增强了原始客户端功能,例如对话和消息搜索、提示模板和插件。项目地址:https://github.com/danny-avila/LibreChatLibreChat功能列表:多功能聊天界面: LibreChat 提供类似于ChatGPT的用户界面,包括深色模式、流式传输。多模式聊天: 支持GPT-4V 和 Gemini Vision分析图像。多语言用户界面: 支持多种语言,包括英语、中文、德语、西班牙语、法语、意大利语等。AI模型选择:包括OpenAI API、Azure、BingAI、ChatGPT、Google Vertex AI、Anthropic(Claude)、插件等。用户可以创建、保存并共享自己的自定义预设Agent。提供会话分支功能,允许编辑、重新提交和继续消息。导出对话: 支持将对话导出为截图、Markdown、文本和 JSON 格式。消息/对话搜索: 提供全面的消息和对话搜索功能。插件支持: 包括 Web 访问、使用 DALL-E-3 生成图像等插件。多用户安全认证: 提供多用户安全认证,包括监督和令牌消费工具。配置选项: 配置代理、反向代理、Docker、许多部署选项,并且完全开源。文档和支持: 提供详细的文档和指南,帮助用户安装、配置软件,并使用高级功能。LibreChat 将助理 AI 的未来与 OpenAI 的 ChatGPT 的革命性技术结合在一起。为了庆祝原始风格,LibreChat 使您能够集成多个 AI 模型。它还集成并增强了原始客户端功能,例如对话和消息搜索、提示模板和插件。使用 LibreChat,您不再需要选择 ChatGPT Plus,而是可以使用免费或按通话付费的 API。我们欢迎贡献、克隆和分叉,以增强这个高级聊天机器人平台的功能。官方GitHub:https://librechat.ai文档:https://docs.librechat.ai加入我们的 Discord:https://discord.librechat.ai
130
GPT-SoVITS

GPT-SoVITS

GPT-SoVITS简介 GPT-SoVITS,一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。完美克隆你的声音!GPT-SoVITS完美适配中文,应该是目前中文支持比较好的模型。github发布地址:https://github.com/RVC-Boss/GPT-SoVITSGPT-SoVITS主要特点:1、零样本TTS: 输入5 秒的声音样本即可体验即时的文本到语音转换。2、小样本 TTS: 只需 1 分钟的训练数据即可微调模型,以提高语音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。跨语言支持: 使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。3、WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标注,帮助初学者创建训练数据集和 GPT/SoVITS 模型。4、适用于不同操作系统: 项目可以在不同的操作系统上安装和运行,包括 Windows。5、预训练模型: 项目提供了一些已经训练好的模型,你可以直接下载使用。如何使用GPT-SoVITS?如果您是 Windows 用户(使用 win>=10 进行测试),您可以直接通过预压缩进行安装。只需下载预压缩,解压并双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。GPT-SoVITS是一款强大的语音克隆和文本到语音转换工具,它可以实现零样本和少样本的语音克隆,以及跨语言的文本到语音转换。它具有数据量少、质量高、灵活性强、易用性高等优点,可以应用于多种场景。如果你对GPT-SoVITS感兴趣,具体详细步骤,可以去项目开源网址上查看,哔哩哔哩上也有相应的教程。
130
Lumiere

Lumiere

Lumiere简介 Lumiere是谷歌研究院团队开发的基于空间时间的文本到视频扩散模型。Lumiere采用了创新的空间时间U-Net架构,该架构通过模型中的单次传递一次性生成视频的整个时间,不同于其他模型那样逐帧合成视频。确保了生成视频的连贯性和逼真度,Lumiere可以轻松促进广泛的内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。Lumiere功能特点:文本到视频的扩散模型: Lumiere能够根据文本提示生成视频,实现了从文本描述到视频内容的直接转换。图像到视频:该模型通过对第一帧进行调节,将静止图像平滑地转换为视频。空间时间U-Net架构: 与其他需要逐步合成视频的模型不同,Lumiere能够一次性完成整个视频的制作。这种独特的架构允许Lumiere一次性生成整个视频的时间长度,不同于其他模型那样逐帧合成视频。全局时间一致性: 由于其架构的特点,Lumiere更容易实现视频内容的全局时间一致性,确保视频的连贯性和逼真度。多尺度空间时间处理: Lumiere通过在多个空间时间尺度上处理视频来学习直接生成视频,这是一种先进的方法。风格化视频生成: 使用单个参考图像,Lumiere可以按照目标风格生成视频,这种能力在其他视频生成模型中较为罕见。广泛的内容创作和视频编辑应用: Lumiere支持多种内容创作任务和视频编辑应用,如图像到视频、视频修补和风格化生成。视频样式化编辑: 使用文本基础的图像编辑方法,Lumiere可以对视频进行一致性的样式编辑。影像合成能力: 当图像的一部分保持静止而另一部分呈现运动时,可以实现局部运动效果,从而为静止图像增添迷人的美感。视频修复功能: Lumiere 可以根据文本提示对现有视频的任意遮罩区域进行动画处理。这为视频编辑、对象插入和/或删除提供了有趣的可能性。尽管取得了这些进步,但Lumiere在需要在不同场景和镜头之间转换的视频方面仍然受到限制。这种能力差距为未来的扩散模型研究提供了重要方向。
130
WhisperFusion

WhisperFusion

WhisperFusion简介 WhisperFusion 建立在开源工具 WhisperLive 和 WhisperSpeech 的功能之上。WhisperFusion可以让你和ai聊天机器人进行超低延迟对话,同时它还整合了Mistral模型,增强对转录文本上下文的理解。使得WhisperFusion能更好地理解人说的每句话背后的意思。WhisperFusion 的主要功能:1、实时语音转文本:利用 OpenAI WhisperLive 进行转换将口语实时转换为文本,方便进行后续的处理和回应。2、整合大语言模型:通过加入 Mistral 这样的大语言模型,WhisperFusion 能够更好地理解转换成文字的语音内容,提高回应的准确性和相关性。3、性能优化:使用 TensorRT 技术对语言模型和 Whisper 进行了优化,确保了快速、高效的处理能力,特别是在实时语音转文本的应用中。4、推理加速:利用 torch.compile 对 WhisperSpeech 进行优化,通过即时编译(JIT)PyTorch 代码,进一步加快了处理速度,减少了延迟。5、易于使用:提供预构建的 Docker 容器,包含了所有必要的组件和模型,用户可以很容易地开始使用 WhisperFusion,体验其功能。了解WhisperLive和WhisperSpeech:WhisperLive 是 OpenAI 的 Whisper 的一个实时转录应用程序,它使用 OpenAI Whisper 模型将语音输入转换为文本输出。它可用于转录来自麦克风的实时音频输入和预先录制的音频文件。与依赖连续音频流的传统语音识别系统不同,我们使用语音活动检测 (VAD) 来检测语音的存在,并且仅在检测到语音时才将音频数据发送到 Whisper。这有助于减少发送到 Whisper 模型的数据量,并提高转录输出的准确性。查看我们的转录帖子和 WhisperLive 存储库了解更多详情。WhisperSpeech 是开源文本转语音技术领域的重大进步。该模型由 Collabora 开发,其重点是提供听起来自然的语音以改善沟通。其目的是创建一个具有多语言功能的适应性强且无缝集成的 TTS 模型。WhisperFusion通过使用 WhisperLive 和 WhisperSpeech 的快速处理能力以及低延迟的通信实现,您可以实现实时、高效、智能的通信。这种适应性可确保您的模式在业务扩展时保持领先一步,同时满足客户的需求,这是提供一流服务的标志。
130
Audio2Face

Audio2Face

Audio2Face简介 Audio2Face,一款由ai驱动的应用程序,通过语音生成富有表现力的3D面部动画。Audio2Face 简化了 3D 角色的动画,以匹配任何画外音轨道,无论您是为游戏、电影、实时数字助理制作角色动画,还是只是为了好玩。您可以将该应用程序用于交互式实时应用程序或作为传统的面部动画创作工具。Audio2Face是如何工作的?Omniverse Audio2Face 应用基于 NVIDIA Research 的原创论文。Audio2Face 预装了“数字标记”——一个 3D 角色模型,可以用您的音轨制作动画,因此入门很简单。只需选择您的音频并将其上传到应用程序中即可。该技术将音频输入输入到预先训练的深度神经网络中,网络的输出实时驱动角色的面部动画。用户可以选择编辑各种后处理参数以编辑角色的表演。然后,网络的输出驱动角色网格的 3D 顶点以创建面部动画。您在此页面上看到的结果大多是 Audio2Face 的原始输出,几乎没有编辑任何后期处理参数。Audio2Face 的实际应用:语言Audio2Face将能够轻松处理任何语言。我们会定期添加越来越多的语言。查看这些英语、法语、意大利语和俄语的测试。Misty 动画聊天机器人在 GTC Spring 2020 上展示的 Misty 是一个交互式天气机器人,在运行时由 Audio2Face 驱动。我们演示了从逼真的人类网格到风格化角色网格的重定向,以用作交互式服务代理。Omniverse 机械Audio2Face 在 GeForce 30 系列发布会上亮相,出现在 Omniverse Machinima 演示中。众所周知,面部动画非常复杂且成本高昂。Audio2Face 可自动执行详细的面部动画,使 3D 内容创建过程民主化。人脸Audio2Face可以使用任何对话驱动的音轨,并最终能够重新定位到任何3D人脸,无论是逼真的还是风格化的。观看此测试,我们将从 Digital Mark 重新定位到 Rain。实验角色生物和外星人此功能允许您重新定位和驱动奇幻生物和外星人的面部动画。在这里,我们有数字标记推动了外星人的性能。
130
ComflowySpace

ComflowySpace

ComflowySpace简介 我们认为开源 ai 图像、视频生成工具值得有更好的交互体验设计,而不是 WebUI 和 ComfyUI 那样原生的样子。很多人不愿意学习或者参与到 AI 生成这个浪潮中,最关键的原因是工具门槛太高。而这正是 Comflowy 要解决的问题,为此我们开发了一款更易用 & 更有用的 AI 图像、视频生成工具 - ComflowySpace。ComflowySpace 的目标是让 ComfyUI & Stable Diffusion 成为普通人都能使用的产品,从下载安装到插件管理、工作流模板、流程编辑,每一个步骤都有良好的设计。Comflowyspace功能:安装更便捷安装 ComfyUI 操作繁琐之余,还常常会遇到各种奇奇怪怪的问题,最后导致安装失败。为了解决这个难题,ComflowySpace 提供了一键安装功能,让你可以在几分钟内完成安装。使用更高效ComflowySpace 提供了一个 workflow 管理功能,你可以在此查看你的所有历史 workflow。有了它,你不再需要手动导出保存 workflow。另外,我们还提供了多 tab 功能,让你可以同时打开和运行多个 workflow,提升多任务操作效率。搭建更简单在 ComflowySpace 中,你可以利用各种模板来搭建 workflow,从而使得搭建 workflow 更加简单和便捷。体验更友好我们优化了非常多的细节体验,让你的使用更加顺畅。同时,ComflowySpace 还和我们的教程打通,降低你的学习门槛。
130
迅排设计

迅排设计

迅排设计简介 迅排设计Poster-Design,一款漂亮易用且功能强大的创意图片编辑器,对标稿定设计、创客贴、Canva 等商业产品。迅排设计适用于海报生成、电商分享图、文章长图、视频/公众号封面等多种场景,无需下载软件即可轻松实现云端编辑、迅速完成图文排版。迅排设计Github仓库地址:https://github.com/palxiao/poster-design迅排设计Poster-Design特点:丝滑的页面操作体验,丰富的交互细节,基础功能完善采用服务端生成图片,能确保多端出图统一性,支持各种 CSS 特性简易 ai 抠图工具,上传图片一键去除背景技术栈:Vue3 、Vite5 、Vuex 、ElementPlus,开发体验畅快图片生成:Puppeteer、Express迅排设计Poster-Design支持功能:导入 PSD 文件解析成模板、在线导出图片下载。元素拖拽、组合、缩放、层级调整、对齐等操作。图片素材插入、替换、裁剪,图片容器等功能。SVG 素材颜色、透明度编辑,文字花字组合。画布自定义尺寸、滚轮缩放、自适应画布吸附对齐、辅助引导线、标尺功能。键盘快捷键、右键菜单快捷操作,复制删除等常用操作。风格二维码编辑,支持单色、渐变、自定义 logo 等。图层操作,支持拖拽变更层级。颜色调色板,原生级取色器颜色吸管(Chrome)。迅排设计完全免费,可在保留 MIT 开源许可证 的前提下使用。迅排设计自正式开源以来,受到了各界的广泛关注,其Github仓库在短短一个月内就获得了大量的关注。这表明迅排设计不仅在功能上满足了用户的需求,而且在社区支持和开源文化方面也展现出了良好的发展势头。迅排设计通过其强大的功能、易用的设计以及良好的社区支持,成为了市场上一款值得关注的在线图片编辑器和海报设计工具。
130
ClotheDreamer

ClotheDreamer

ClotheDreamer简介 ClotheDreamer,一个虚拟试穿项目,可以从文本生成可穿戴3D服装,ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室出的。ClotheDreamer功能特征:支持自定义服装模板,实现多样化、个性化3D服装生成生成的服装可以适应不同身材,并支持自动拟合ClotheDreamer,一种用于文本引导服装生成的新型系统,它使用 3D 高斯曲面 (3D GS) 对不同的服装几何形状进行建模。ClotheDreamer 允许用户从文本描述生成 3D 服装模型,从而实现更直观、更具表现力的服装设计。ClotheDreamer利用大型语言模型和 3D 高斯曲面的强大功能来生成详细、高质量的服装网格,以捕捉复杂的形状和褶皱。ClotheDreamer 这个工具允许你通过文字描述来创建衣服的3D模型。您无需使用复杂的 3D 建模软件自己设计衣服,只需输入描述,系统就会为您生成 3D 服装模型。ClotheDreamer 的关键创新是使用 3D 高斯曲面 (3D GS) 来表示服装的形状。高斯曲面是一种描述 3D 形状的数学方法,可以捕捉复杂的细节,如衣服上的褶皱和悬垂。通过将这种 3D 建模技术与强大的语言模型相结合,ClotheDreamer 可以将您的文本描述转换为高度逼真的 3D 服装模型。这使得设计衣服的过程更加直观和容易获得,因为您不需要专门的 3D 建模技能。您可以简单地描述您心目中的服装,ClotheDreamer 将以 3D 形式将其变为现实。这对于时装设计师、3D 艺术家或任何想要创建定制服装设计的人都很有用。ClotheDreamer技术说明ClotheDreamer 使用 GaussianDreamer: Fast Generation from Text to 3D 架构,根据文本描述生成 3D 服装模型。它利用预先训练的语言模型对输入文本进行编码,然后用于调节表示服装几何形状的 3D 高斯曲面的生成。ClotheDreamer在大型 3D 服装模型数据集及其相应的文本描述上进行训练。在推理过程中,使用语言模型对输入文本进行编码,此表示用于预测将形成最终服装网格的 3D 高斯曲面的参数。通过使用 3D 高斯曲面,ClotheDreamer 能够捕捉复杂的服装几何形状,包括褶皱、窗帘和其他复杂的细节。这使得系统能够生成高度逼真和多样化的服装模型,这些模型与输入的文本描述非常匹配。作者还提出了对基本 ClotheDreamer 模型的扩展,包括 LAGA:通过文本生成和自定义分层 3D 头像和着装代码:从文本生成服装的自回归缝纫,这进一步扩展了系统的服装生成和定制功能。ClotheDreamer局限性分析ClotheDreamer 系统代表了文本到 3D 生成领域的一个令人印象深刻的进步,展示了大型语言模型和 3D 高斯曲面在直观服装设计方面的潜力。将自然语言描述转换为高质量 3D 服装模型的能力可能会对时尚、3D 艺术和其他领域产生重大影响。然而,本文确实承认了当前方法的一些局限性。该系统在相对较小的 3D 服装模型数据集上进行训练,这可能会限制其推广到更多样化或非常规服装风格的能力。此外,3D 高斯曲面表示虽然可以有效地捕获复杂的几何图形,但可能并非适用于所有类型的服装特征,例如尖锐的折痕或高度不对称的形状。进一步的研究可以探索扩展数据集、改进 3D 表示以及增强系统处理更广泛的服装类型和款式的能力的方法。正如相关工作中所暗示的那样,将 ClotheDreamer 与其他 3D 建模工具或头像生成系统集成,也可以解锁该技术的新应用和用例。总的来说,ClotheDreamer代表了在寻求使3D服装设计更易于访问和直观方面迈出的令人兴奋的一步。随着文本到3D生成领域的不断发展,像 ClotheDreamer 这样的系统可能会成为设计师、艺术家和任何想要在数字领域将他们的服装创意变为现实的人越来越有价值的工具。
130