Ai开源项目

共 127 篇网址
LivePortrait

LivePortrait

LivePortrait简介 LivePortrait,利用AI技术将静态照片转换为视频,展现逼真的面部表情和动作。LivePortrait开源项目来自中国快手科技和复旦大学,使用经过特殊训练的模型,可以将视频或网络摄像头中的动画转换为动画,并将动作转换为图像或照片。LivePortrait 利用基于隐式关键点的框架从单个源图像创建逼真的视频动画。这种方法平衡了计算效率和可控性,使其成为各种应用的实用工具。LivePortrait的Comfyui版本:https://github.com/shadowcz007/comfyui-liveportraitLivePortrait功能征:将静态照片转换为动画视频;生成逼真的面部表情和动作;支持不同风格的动画生成;允许用户上传视频并同步面部动作。提供个性化视频沟通工具,提升沟通效果;LivePortrait 如何生成 AI 内容LivePortrait 的动画过程涉及两个阶段的训练流程:第一阶段:基础模型训练在第一阶段,从头开始训练基础模型。此阶段涉及优化外观提取器(F)、运动提取器(M)、变形模块(W)和解码器(G)。这些组件协同工作,分别从源图像和驾驶视频中提取和合成外观和运动。第二阶段:拼接和重定向模块培训在第二阶段,之前训练的组件被冻结,重点转移到优化拼接和重定向模块。这些模块通过对眼睛和嘴唇等特定面部特征提供更精细的控制来提高动画质量,从而实现更详细和更具表现力的动画。LivePortrait 的主要特点效率和速度:LivePortrait 实现了惊人的生成速度,在使用 PyTorch 的 RTX 4090 GPU 上达到每帧 12.8 毫秒。这种效率使其适合实时应用。高品质动画:通过将训练数据扩展至约6900万个高质量帧并采用混合图像视频训练策略,LivePortrait确保了卓越的动画质量和泛化能力。先进的可控性:拼接和重定向模块可以精确控制面部特征,从而实现详细的动画。用户可以控制眼睛和嘴唇运动的程度,增强生成视频的真实感。多功能性:LivePortrait支持写实、油画、雕塑、3D渲染等多种风格。这种多功能性使其适用于从创意内容到专业视频制作的广泛应用。LivePortrait应用群体内容创作者和影响者:LivePortrait 使内容创作者和影响者能够从单个图像生成高质量的动画视频,通过逼真的动画增强其内容。电影制片人和动画师:专业电影制作人和动画师可以使用 LivePortrait 高效创建逼真的角色动画,从而节省制作过程中的时间和资源。营销人员和广告商:营销人员和广告商可以利用 LivePortrait 制作引人入胜的动态视频广告,通过逼真的动画吸引观众的注意力。教育工作者和电子学习开发人员:教育内容可以通过动画肖像变得更具互动性和吸引力,从而使学习材料对学生更具吸引力。游戏开发商:游戏开发者可以使用 LivePortrait 创建逼真的角色动画,通过逼真的表情和动作增强整体游戏体验。LivePortrait的Comfyui版本:Liveportrait comfyui:https://github.com/shadowcz007/comfyui-liveportrait
0
LabelLLM

LabelLLM

LabelLLM简介 LabelLLM是一个开源的数据标注平台,致力于优化对于大型语言模型(LLM)开发不可或缺的数据标注过程。LabelLLM的设计理念旨在成为独立开发者和中小型研究团队提高标注效率的有力工具。LabelLLM的核心在于通过提供全面的任务管理解决方案和多样化的多模态数据支持,简化并增强模型训练的数据注释过程的效率。LabelLLM特色功能:灵活的配置:LabelLLM以其可适应性强的框架而脱颖而出,提供了一系列可定制的任务特定工具,以满足数据标注项目的多样化需求。这种灵活性允许平台无缝集成到各种任务参数中,使其成为模型训练数据准备阶段的宝贵资产。多模态数据支持:LabelLLM认识到数据多样性的重要性,并将其能力扩展到包括音频、图像和视频在内的多种数据类型。这种全面的方法确保用户可以在一个统一的平台上进行包含多种数据类型的复杂标注项目。全面的任务管理:为确保体现最高标准的质量和效率,LabelLLM设有全方位的任务管理系统。该系统提供实时监控标注进度和质量控制,从而保证所有项目的数据准备阶段的完整性和时效性。人工智能辅助标注:LabelLLM支持预标注数据的一键载入,用户可以根据实际需要对其进行细化和调整。这一特性提高了标注的效率和准确性。LabelLLM产品特性:多功能性: LabelLLM为用户提供了广泛的数据标注工具,旨在处理各种任务,而不会损害标注的效果或准确性。用户友好: 除了功能强大之外,LabelLLM还非常注重用户体验,提供直观的配置和工作流程,简化了数据标注任务的设置和分配。效率提升: 通过整合人工智能辅助的标注,LabelLLM大幅提高了标注效率
0
Emote Portrait Alive

Emote Portrait Alive

Emote Portrait Alive简介 Emote Portrait Alive是阿里巴巴发布的EMO,一种音频驱动的AI肖像视频生成框架。输入单个参考图像和声音音频,例如说话和唱歌,Emote Portrait Alive就可以生成具有表情丰富的面部表情和各种头部姿势的声音肖像视频,让照片中的人物根据音频内容自然地张嘴说话或唱歌,面部表情和头部姿态非常逼真。同时,我们可以根据输入视频的长度生成任意持续时间的视频。Emote Portrait Alive功能和特点:音频驱动的视频生成:EMO能够根据输入的音频(如说话或唱歌)直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。高表现力和逼真度:生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。无缝帧过渡:确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。身份保持:通过FrameEncoding模块,EMO能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。稳定的控制机制:采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。灵活的视频时长:可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。跨语言和跨风格:训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和3D风格,使得EMO能够适应不同的文化和艺术风格。Emote Portrait Alive应用场景:唱歌视频生成:输入一张人物肖像照片和唱歌音频,EMO可以生成与音频同步且富有表现力的唱歌视频。说话视频生成:不仅限于唱歌,还可以处理说话音频,生成与语音同步的说话视频。多语言支持:支持多种语言的音频输入,能够生成不同语言下的人物肖像视频。跨风格应用:可以将不同风格(如动漫、3D模型等)的肖像图像与音频结合,生成具有特定风格的视频内容。Emote Portrait Alive不仅限于处理唱歌的音频输入,还可以容纳各种语言的口语音频。此外,Emote Portrait Alive还能够将过去的老照片、绘画以及 3D 模型和AI生成的内容制作成视频,为它们注入逼真的动作和真实感。
0
ChatTTS

ChatTTS

ChatTTS简介 ChatTTS视频演示ChatTTS,一个专门用于对话场景的免费在线文本转语音TTS模型,适用于自然、对话式文本转语音。它支持英文和中文两种语言。这个语音专文本TTS模型 应该是目前对中文支持最好的了,ChatTTS模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。它专为对话任务优化,能够支持多种说话人语音,中英文混合等。ChatTTS还能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等,还能进行更细粒度的调整,如语速、音调和情感等。ChatTTS特点:对话式TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。ChatTTS功能:多语言支持:ChatTTS 的主要功能之一是支持多种语言,包括英语和中文。这使得它能够服务广泛的用户并克服语言障碍。大数据训练:ChatTTS 已经使用大量数据进行了训练,大约有 1000 万小时的中文和英文数据。这种广泛的培训带来了高质量且自然的语音合成。对话框任务兼容性:ChatTTS 非常适合处理通常分配给大型语言模型 LLMs 的对话任务。它可以生成对话响应,并在集成到各种应用程序和服务中时提供更自然、更流畅的交互体验。开源计划:项目团队计划开源一个训练有素的基础模型。这将使社区的学术研究人员和开发人员能够进一步研究和开发该技术。控制和安全:团队致力于提高模型的可控性,添加水印,并与LLMs集成。这些努力保证了模型的安全性和可靠性。使用方便:ChatTTS 为其用户提供易于使用的体验。它只需要输入文本信息,即可生成相应的语音文件。这种简单性为有语音合成需求的用户提供了方便。ChatTTS可以用于哪些用途?ChatTTS可用于各种应用,包括大型语言模型助手的对话任务,生成对话语音,视频介绍,教育和培训内容语音合成,任何需要文本到语音功能的应用或服务。与其他文本转语音模型相比,ChatTTS有何独特之处?ChatTTS专为对话场景进行优化,特别适用于会话应用程序。它支持中文和英文,经过大规模数据集培训,以确保高质量、自然的语音合成。此外,计划开源基于40,000小时数据训练的基础模型使其与众不同,促进该领域的进一步研究和开发。ChatTTS Github开源下地地址:https://github.com/2noise/ChatTTS 相关资讯: 10款优秀的开源TTS语音模型推荐
0
小狐狸AI创作系统

小狐狸AI创作系统

小狐狸AI创作系统简介 小狐狸ai创作系统是一款基于ThinkPHP框架开发的AI问答小程序,它以小狐狸为形象,为用户提供了智能而互动的聊天体验。此外,该系统还集成了全开源的GPT4.0MJ绘画系统AI,使得用户可以使用AI进行绘画创作。小狐狸AI创作系统已上线的功能:1、PC版2、多key轮询3、H5版4、对接公众号5、卡密功能6、ai绘画功能7、角色模拟功能8、4.0接口9、私有知识库(训练)10、多个国内接口小狐狸AI创作系统开发中的功能:1、UI换肤2、windows桌面版3、账号密码登录4、抖音小程序5、其他遗留细节升级小狐狸AI创作系统功能特点系统开源,源码交付,可以自由的进行二次开发长期免费升级,购买享有对一个域名,进行长期免费升级的服务SAAS多开,系统支持无限SAAS多开站点,可以无限进行多开,赚取服务费多个国内接口,已对接百度文心等国内AI接口,更多国内接口正在对接中AI绘画,已完美支持意间和Midjourney绘画接口支持GPT4.0,已对接官方4.0接口完善的分销裂变功能,支持完善的二级分销功能,可以直接进行分销裂变多端支持,PC/H5/小程序多端同步万能创作模型,支持对创作模型进行自定义的添加和修改、删除私有知识库,拥有私有知识库功能,可以对AI进行相应的训练
0
TextBase

TextBase

TextBase简介 TextBase 是一款简单的框架,用于构建 ai 聊天机器人,它可以帮助开发人员快速搭建和优化聊天机器人。TextBase简单易用,自由可扩展,是聊天机器人开发的首选框架。Textbase的优点在于它简单易用。你只需要实现main.py中的on_message函数,Textbase就会负责其他所有事情。由于Textbase只是Python代码,所以你可以自由使用任何模型、库、向量数据库和API。TextBase 的简洁设计和强大功能,使其成为人工智能领域的新力量。TextBase 的自然语言处理能力出色,能够理解和生成人类语言,从而实现人机交互。此外,TextBase还可以通过机器学习技术不断提升自身的语言理解和应答能力。TextBase 的出现为 AI 聊天机器人的开发带来了新的可能。TextBase功能:简单的Python框架,只需实现on_message函数完全可自定义,可以使用任何模型和技术支持通过pip安装使用可以轻松部署到服务器未来可扩展性强,可集成更多模型
0
Whisper语音识别模型

Whisper语音识别模型

Whisper语音识别模型简介 Whisper 是Openai 开源音频转文字的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。Whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。
0
Documate

Documate

Documate简介 Documate 是一款针对站内文档问答的开源 ai 工具,旨在将 AI 聊天对话框无缝嵌入到您的网站之中。并使用您的内容生成用户问题的实时答案,有效地充当您平台的人工客服,有了大模型的加持,用户上来几乎可以不读文档,直接与 AI 对话就可以完成自己的需求,对技术类产品文档来说,Documate的价值很高。Documate功能特点:轻松集成: 轻松与VitePress,Docusaurus,Docsify和任何其他文档站点集成,无需AI或LLM知识。完全可控:您拥有代码,拥有您的数据,选择要编制索引的内容。完全可定制:带有经过微调的 UI,可完全自定义以满足您的特定需求。易于使用:无需 AI 或矢量搜索知识。只需执行几个步骤,您就可以在几分钟内将Documate集成到您的网站中。
0
EmojiGen

EmojiGen

EmojiGen简介 EmojiGen是一个开源的表情符号生成器。它由 Replicate 上的 fofr/sdxl-emoji 提供支持。可以根据用户任意的文字描述生成新的表情符号,不同用户可以获得完全定制的个性表情符号,用户只需要在输入框中输入一个词或短语,EmojiGen就会立即生成相关的表情符号。EmojiGen,应该是世界上最大的表情符号库(约 25 万表情),EmojiGen有大量默认的表情符号,分类为“最新”和“特色”两部分。EmojiGen还有个开源项目,为其他开发者提供了参考,并进行二次开发打造出更多优秀的ai应用。可以利用文本提示生成表情。接受用户的提示,生成一个表情。然后,使用Replicate去除背景。用户可以点击下载并添加到Slack。EmojiGen功能:使用AI技术根据文字生成相关的表情符号。提供大量默认表情符号库(约 25 万表情)。用户可以输入任意文字获得自定义表情符号。生成的图片可以下载保存和在聊天软件中使用。
0
Deepfakes Creator

Deepfakes Creator

Deepfakes Creator简介 Deepfakes Creator,可以通过文本输入生成逼真的会说话的真人视频。用户只需要上传想要化身模仿的人的照片,并写一个剧本,工具就能创建出逼真的人物化身视频,模拟人物说话。不仅如此,Deepfakes Creator还支持多种语言,并能进行实时问答互动。Deepfakes Creator应用:教育内容:Deepfakes Creator将复杂的教育概念转化为引人入胜的互动学习体验,使信息更容易获得并吸引所有年龄段的学生。企业沟通:Deepfakes Creator生成的视频为企业提供了一种动态的内部沟通方式,非常适合培训、更新或人力资源公告,为企业信息传递增添个人和亲和力。新闻广播:在新闻媒体中,Deepfakes Creator可以化身可以叙述故事或模拟采访,为传统新闻报道提供独特、引人入胜的转折。营销和品牌推广:Deepfakes Creator头像使品牌能够创建独特且令人难忘的营销活动,与品牌形象保持一致,并有效地将产品或服务推向市场。Deepfakes Creator使用步骤:我们将指导您完成以下步骤,以创建自己的视频:1、使用纯文本格式或语音合成标记语言 (SSML) 说话脚本开始。SSML 允许您微调头像的声音,包括发音和特殊术语(如品牌名称)的表达,以及挥手或指向物品等头像手势。2、准备好说话的脚本后,可以使用 Azure TTS 3.1 API 合成视频。除了 SSML 输入之外,您还可以指定人物形象的字符和样式(例如站立或坐着)以及所需的视频格式。在许多情况下,您可能希望在最终视频中添加内容图像或带有文本、插图、动画等的视频。为此,您可以将动画 PowerPoint 演示文稿导出为高分辨率视频。3、最后,结合头像视频、内容和背景音乐等可选元素,以构成您丰富的视频体验。这可以使用 FFmpeg 工具或像 ClipChamp 这样的视频编辑器来完成,以获得更多控制。使用视频编辑器提供了一种直观的方式来微调视频的时间,添加引人入胜的效果和动画。
0
InvokeAI

InvokeAI

InvokeAI简介 什么是 Invokeai?InvokeAI 是一个开源项目,它提供了一个简化的过程,具有各种新功能和选项,以帮助使用 Stable Diffusion 模型生成图像过程。稳定扩散模型是一种生成模型,可以从文本或图像提示生成逼真的图像。InvokeAI 支持文本到图像和图像到图像生成,以及各种图像处理任务,例如修复、外绘制、嵌入等。InvokeAI 可在 Windows、Mac 和 Linux 机器上运行,并在低至 4 GB 或 RAM 的 GPU 卡上运行。它提供了行业领先的 Web 界面、交互式命令行界面,并且还充当了多种商业产品的基础。InvokeAI 能做什么?InvokeAI 可以使用最新的 AI 驱动技术生成和创建令人惊叹的视觉媒体。以下是您可以使用 InvokeAI 执行的操作的一些示例:- 从文本提示生成逼真的图像,例如“一条蓝龙飞越城堡”或“一只戴着帽子的可爱猫”。- 根据图像提示生成逼真的图像,例如草图、照片或绘画。- 以各种方式处理图像,例如修复(填充缺失的部分)、外绘(扩展图像)、放大(提高分辨率)等。- 合并多个模型以创建新的和多样化的图像。- 使用文本反转或变体训练您自己的模型。- 使用概念库访问预定义的概念和属性以生成图像。- 使用后处理来提高生成图像的质量和多样性。- 使用 NSFW 检查器过滤掉不适当的图像。如何开始使用 InvokeAI?开始使用 InvokeAI 非常简单。您可以根据自己的偏好和系统要求从不同的安装选项中进行选择。您可以使用自动安装程序、手动安装指南、docker 安装指南或源安装程序。您还可以在其 GitHub 页面或其网站上找到有关如何使用 InvokeAI 的详细文档。安装 InvokeAI 后,您可以开始使用最新的 AI 驱动技术生成和创建令人惊叹的视觉媒体。您可以使用 Web Interface 访问用户友好的图形界面,该界面允许您与 InvokeAI 的模型和功能进行交互。您还可以使用命令行界面访问功能强大且灵活的界面,该界面允许您自定义调用和脚本。您可以在文档页面上找到有关如何使用这两个接口的示例和教程。InvokeAI 是一个开源项目,欢迎任何有兴趣开发和改进它的人做出贡献。您可以加入 Discord 服务器以与其他开发人员和用户联系、报告错误、请求功能、分享想法并获得帮助。您还可以查看 GitHub 页面以查看源代码、提交拉取请求或分叉项目。InvokeAI 是 Stable Diffusion 模型的领先创意引擎,它使专业人士、艺术家和爱好者能够使用最新的 AI 驱动技术生成和创建视觉媒体。如果你有兴趣与人工智能共同创造,我鼓励你尝试一下InvokeAI,看看你能用它创造出什么令人惊奇的东西。InvokeAI优点:这是一个开源项目,它为使用 Stable Diffusion 模型生成高质量图像提供了简化的过程。它提供了行业领先的 Web 界面、交互式命令行界面,并且还作为多种商业产品的基础。它支持低至 4 GB RAM 的 GPU 卡,可在 Windows、Mac 和 Linux 机器上运行。它具有各种功能和选项来帮助图像生成过程,例如修复、出彩、模型合并、后处理、变化等。它有一个庞大而活跃的开发人员和用户社区,他们为项目做出贡献并提供反馈和支持。
0
ComfyUI Portrait Master简体中文版

ComfyUI Portrait Master简体中文版

ComfyUI Portrait Master简体中文版简介 ComfyUI Portrait Master 肖像大师简体中文版,超详细参数设置!再也不用为不会写人像提示词发愁啦!重新优化为ison列表更方便自定义和扩展!已包含标准工作流和turbo工作流,大家快去玩!ComfyUI项目地址:https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cnComfyUI系统教程:https://space.bilibili.com/484366804参数说明 | Parameters镜头类型:头像、肩部以上肖像、半身像、全身像、脸部肖像性别:女性、男性国籍_1:193个国家可选国籍_2:193个国家可选眼睛颜色:琥珀色、蓝色等8种面部表情:开心、伤心、生气、惊讶、害怕等24种脸型:椭圆形、圆形、梨形等12种发型:法式波波头、卷发波波头、不对称剪裁等20种头发颜色:金色、栗色、灰白混合色等9种灯光类型:柔和环境光、日落余晖、摄影棚灯光等32种灯光方向:上方、左侧、右下方等10种起始提示词:写在开头的提示词补充提示词:写在中间用于补充信息的提示词结束提示词:写在末尾的提示词提高照片真实感:可强化真实感负面提示词:新增负面提示词输出提示词合成顺序 | Prompt composition order起始提示词镜头类型 + 镜头权重国籍 + 性别 + 年龄眼睛颜色面部表情 + 面部表情权重脸型发型头发颜色头发蓬松度补充提示词皮肤细节皮肤毛孔皮肤瑕疵酒窝雀斑痣眼睛细节虹膜细节圆形虹膜圆形瞳孔面部对称性灯光类型 + 灯光方向结束提示词提高照片真实感自定义 | Customizations可将需要自定义增加的内容写到lists文件夹中对应的json文件里(如发型、表情等)使用建议 | Practical advice皮肤和眼睛细节等参数过高时可能会覆盖所选镜头的设置。在这种情况下,建议减小皮肤和眼睛的参数值,或者插入否定提示(closeup, close up, close-up:1.5),并根据需要修改权重。安装 | Installcd custom_nodesgit clone https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cn.git重启 ComfyUI
0
AnyDoor

AnyDoor

AnyDoor简介 AnyDoor,由香港大学、阿里巴巴和蚂蚁集团联合研发AnyDoor,可以将一张照片上的任何物品传送到另一张图片的世界中。AnyDoor项目地址:https://damo-vilab.github.io/AnyDoor-Page/AnyDoor在线演示地址:https://huggingface.co/spaces/xichenhku/AnyDoor-onlineAnyDoor功能:对象移动:AnyDoor 可以应用于对象移动等花哨的任务。对象交换:AnyDoor 也可以扩展为进行对象交换。虚拟试妆:AnyDoor还可以作为虚拟试妆的简单但强大的基准。它可以保留不同衣服的颜色、图案和纹理,而无需复杂的人工解析。多主体合成::由于 AnyDoor 具有高度可控性,可将对象放置在给定场景的特定位置,因此很容易扩展到多主题构图。AnyDoor使用场景:在虚拟试穿应用中,用户可以将选定的衣物快速定制到自己的照片中。在物体移动应用中,用户可以将目标物体从一张照片移动到另一张照片中的指定位置。在设计领域中,用户可以将自己设计的家具或装饰品定制到不同的室内场景中,以获得更直观的效果预览。AnyDoor是一种基于扩散的图像生成器,能够以和谐的方式将目标物体传送到用户指定位置的新场景。 我们的模型不是为每个对象调整参数,而是只训练一次,并在推理阶段毫不费力地泛化到不同的对象-场景组合。 如此具有挑战性的零样本设置需要对特定物体进行充分的表征。为此,我们用细节特征来补充常用的身份特征,这些特征经过精心设计,以保持纹理细节,同时允许多种局部变化(例如,照明、方向、姿势等),支持物体与不同环境的有利融合。 我们进一步建议从视频数据集中借用知识,在那里我们可以观察到单个物体的各种形式(即沿时间轴),从而实现更强的模型泛化性和鲁棒性。大量的实验证明了我们的方法优于现有的替代方案,以及它在实际应用中的巨大潜力,如虚拟试妆和物体移动。
0
PhotoMaker

PhotoMaker

PhotoMaker简介 PhotoMaker,利用多张照片作为身份ID,获取人物特征,然后根据描述生成符合描述的人物照片创造出一个新的、个性化的人物图像。PhotoMaker也能把几个不同人的照片特征混合在一起,创造出一个全新的人物形象。还能改变照片人物的性别、年龄和生成多种风格的其他照片。快速逼真,效果自然。PhotoMaker主要功能:根据文字描述制作照片:你可以告诉它你想要的人物样子,它就能生成符合描述的人物照片。身份混合:如果用户提供不同的图像 ID作为输入,我们的PhotoMaker可以很好地整合这些特性 的不同 ID 形成一个新的 ID。改变年龄或性别:比如,你可以把一张男士的照片转换成女士的样子,或者让照片中的人看起来年轻或年老。风格化:它还能给照片加上不同的艺术效果,比如油画风格或卡通风格。而保留 ID 属性。将艺术品/旧照片中的人物带入现实:由 拍摄一个人的艺术绘画、雕塑或旧照片 作为输入,我们的PhotoMaker可以将一个人从上个世纪甚至远古时代带到本世纪 为他们“拍照”。我们在每张图片下方显示条件反射提示。PhotoMaker主要特点:结合多张照片的特征:PhotoMaker可以取多张照片,这些照片可以是同一个人的,也可以是不同人的。它分析这些照片中的特征,然后将它们结合起来,创造出一个新的、个性化的人物图像。灵活的文本控制:与其他方法相比,PhotoMaker提供了更灵活的文本控制能力。用户可以通过文本提示来指导图像的生成,这使得创造出的图像不仅逼真,而且能更好地符合用户的具体要求。高效率和快速生成:相比于需要大量微调的方法(如DreamBooth),PhotoMaker在保持身份信息的同时,提供了更快的生成速度。它能在短时间内(例如10秒)生成定制的人类照片,这对于需要快速生成结果的应用场景非常有利。高身份保真度:PhotoMaker在生成图像时能更好地保持人物的身份特征。这对于需要精确保留人物特征的场景(如个性化肖像或身份识别)尤其重要。PhotoMaker如何工作?PhotoMaker首先分析照片,识别出每张照片中人物的特征,比如面部特征、发型、服装风格等。然后,它将这些特征结合起来,创建一个新的图像。这个图像基本上是你的脸,但可能有着电影明星的发型和表情,同时穿着那张历史服装照片中的服装。最终的结果是一张全新的照片,这张照片展示了一个独特的人物形象:看起来像你,但具有其他照片中人物的特征和风格。这就是PhotoMaker的核心功能——结合多个不同照片的特征,创造出一个全新、个性化的图像。源码:https://github.com/TencentARC/PhotoMaker
0
Sora.FM

Sora.FM

Sora.FM简介 Sora.FM 是用于生成 Sora ai 视频的开源 Web 模板,使用 nextjs 创建。生成视频的接口暂时 Mock,等 Sora API 发布后可快速替换上线。 支持数据读写,可以把全网收集到的Sora视频更新到DB,先做一个 Sora Showcase 网站跑流量。开发者:idoubi艾逗笔,前腾讯高级工程师,微信后台开发;现自由职业。之前开发的一个《AI Cover 红包封面生成器》受到很多人的欢迎。Github开源地址:https://github.com/all-in-aigc/sorafm类似的一个Sora生成器开源模板:SoraWebui
0
Magi

Magi

Magi简介 Magi模型,可以自动将漫画转录成文字并自动生成剧本,还可以通过识别漫画页面上的面板、文字块和角色,重新排序和关联,输出连贯的对话内容,准确地为每幅漫画生成文本记录,从而保证输出文本的逻辑性,使整个流程更加高效。Magi模型由牛津大学工程科学系的视觉几何组开发。Magi适用于那些需要将漫画图片自动化生成文本的研究人员、开发者或者漫画爱好者。它为这些用户提供了方便快捷的工具,从而帮助他们轻松进行数字化漫画内容及索引。Magi GitHub源码:https://github.com/ragavsachdeva/magiMagi论文:https://arxiv.org/abs/2401.10224Magi模型主要功能:面板检测:精确识别漫画页面上的各个面板,即画家绘制的独立矩形画框,这是理解漫画页面布局和内容的第一步。文本检测:在每个面板内部定位文字区域,提取包含重要对话或叙述的文本块,这是理解面板内容的基础。角色检测:检测每个面板内出现的角色,获取其在图像中的边界框、姿态、表情等视觉信息,这对后续分析至关重要。角色识别:基于检测结果,识别每个角色的身份信息,如名字、称呼等,这可以帮助跟踪故事中的人物。角色聚类:根据面部特征、服装特征等信息,将同一角色的不同姿态图片聚类到一起,从而区分页面上的不同角色。语音分配:判断文本块属于页面上哪个角色的对话,将语音正确分配给对应的角色,这对生成精确的剧本必不可少。阅读排序:根据面板位置、阅读顺序,将分散的文本块重新排序和连接,输出连贯的对话内容,从而保证输出文本的逻辑性。Magi如何使用?1、上传漫画图片2、系统自动识别并提取漫画图片相关信息生成文本3、用户根据需要对文本进行编辑和修改通过Magi的这些功能,Magi能够自动将漫画页面转化为详细的文字剧本,解决漫画页面的自动理解和剧本生成问题,包含角色对话和相应的动作或情境描述,这使得漫画内容的数字化处理变得轻松快捷,使读者能够通过阅读文本来完整地体验漫画故事。
0
Diffutoon

Diffutoon

Diffutoon简介 Diffutoon 是一项突破性的卡通着色进步,植根于扩散模型,可将逼真的视频无缝地转变为动漫视觉风格。该方法将卡通着色挑战分解为四个可辨别的方面:风格化、一致性增强、结构指导和着色。其主要卡通着色管道由植根于动漫风格扩散原理的多模块去噪模型推动,拥有令人印象深刻的渲染详细、高分辨率和长时间视频的能力。编辑分支的合并有助于根据提供的提示进行内容操作。通过闪存注意力的战略集成巧妙地缓解了 GPU 内存限制,从而实现高达 1536 x 1536 的分辨率。Diffutoon 能够以动漫风格渲染出细致、高分辨率、以及延长时间的视频。它还可以通过额外的分支编辑内容。Diffutoon 的有效性通过数值指标和人类评估进行评估。值得注意的是,Diffutoon 在我们的实验中超越了开源和闭源基线方法。Diffutoon 的主要功能:将真实感视频转换成各种动漫风格根据用户提示编辑视频内容,例如改变颜色或添加特效。详细保留了光照、头发和姿势等细节,同时保持了与动画风格密切相关的视觉效果。保持视频内容的一致性,避免闪烁和失真。能够生成高分辨率、长时间的视频。Diffutoon 的主要特点:高分辨率输出:Diffutoon 可以处理超高分辨率的视频,使其适合专业级动画和视频项目。一致性增强:它确保跨帧的风格化一致,这对于保持动画序列的视觉连贯性至关重要。可编辑内容:该方法允许根据提示进行内容编辑,为创作过程提供灵活性。结构指导和着色:Diffutoon 结合了结构指导和着色,以增强风格化输出的视觉吸引力和准确性。Diffutoon应用:动画制作:Diffutoon 可用于动画创作,将真人镜头或其他类型的视频转换为动画风格的动画。视频编辑:它能够根据提示编辑视频内容,这使其成为希望将动漫美学融入其项目的视频编辑者的强大工具。创意项目:艺术家和创作者可以使用 Diffutoon 在其视频内容中尝试不同的风格和效果。论文:https://arxiv.org/pdf/2401.16224Github:https://github.com/modelscope/DiffSynth-Studio项目:https://ecnu-cilab.github.io/DiffutoonProjectPage/
0
Unique3D

Unique3D

Unique3D简介 Unique3D 在 30 秒内从单视图野生图像生成高保真、多样化纹理网格,当然运行速度取决于你的硬件资源情况。Unique3D主要功能:高保真度生成:Unique3D 实现了最先进的生成保真度,可生成细致复杂的纹理和复杂的几何形状。这是通过多视图扩散模型来实现的,该模型生成正交多视图图像和相应的法线贴图。效率:框架效率高,能够在30秒内生成高保真3D网格。这种效率归功于快速前馈模型和称为 ISOMER 的即时网格重建算法的集成。一致性:Unique3D 通过使用多级升级流程逐步提高生成图像的分辨率,确保生成视图的一致性。 ISOMER 算法将颜色和几何先验集成到网格结果中,解决了先前方法中发现的不一致问题。通用性:该框架表现出很强的通用性,在各种不同风格的野生2D图像上表现良好。大量实验证明了这一点,这些实验表明 Unique3D 在保真度、几何细节和分辨率方面优于现有方法。多级升级策略:Unique3D采用多级升级策略来逐步增强生成图像的分辨率。这涉及微调多视图感知 ControlNet 并使用超分辨率模型来实现高分辨率输出。法线贴图预测:为了捕捉丰富的表面细节,Unique3D 使用法线扩散模型来预测与多视图彩色图像相对应的法线贴图。这提高了几何细节的准确性,尤其是边缘处。ExplicitTarget 优化:为了解决多视图不一致问题并细化几何细节,Unique3D 引入了 ExplicitTarget 优化。该方法为每个顶点分配唯一的优化目标,比传统方法更稳健地指导优化方向。Unique3D特征:在 30 秒内生成高保真纹理网格。5 天内仅使用 8 个 RTX4090 GPU 进行训练。利用多视图扩散模型和法线扩散模型来生成多视图图像和法线贴图。采用多级升级流程来提高分辨率。使用 ISOMER 进行即时且一致的网格重建。Unique3D由清华大学和AVAR Inc.的研究团队共同开发。Unique3D官网入口:Unique3D 在线使用:https://huggingface.co/spaces/Wuvin/Unique3DUnique3D 项目地址:https://wukailu.github.io/Unique3D/Unique3D Github:https://github.com/AiuniAI/Unique3D
0
MemFree

MemFree

MemFree简介 MemFree 是一个开源的混合AI搜索引擎,它结合使用矢量搜索和 SERP 搜索来提供最相关的结果。可以同时对您的个人知识库(如书签、笔记、文档等)和互联网进行搜索, 为你提供最佳答案。Memfree 支持搜索、聊天和询问模式:搜索模式:从您的个人知识库快速访问相关内容。快速获取网页链接。聊天模式:个人助理:编码、写作、头脑风暴、翻译等。有关历史、文化、科学和常识的问题。询问模式:获得详细、准确和最新的答案。根据您的个人知识库提出问题。MemFree功能亮点:混合 ai 搜索引擎自托管的极速无服务器向量数据库自托管的极速Local Embedding and Rerank Service一键 Chrome 书签索引完整代码开源前后端一键部署MemFree 能做什么您可以根据书签、笔记和文档部署自己的混合人工智能搜索引擎您可以首先索引某个主题的最佳资源,然后构建特定领域的 AI 搜索引擎可以先索引一个网站的所有文档,然后为一个网站构建一个智能答疑助手对于您在 MemFree 中专门索引的书签和网页, MemFree 会在搜索过程中对它们进行优先级排序,使用矢量索引返回最相似的内容,并最终通过其 AI 模型提供最佳答案。对于您认为有价值或感兴趣的网页,您只需要让MemFree一键索引即可。 MemFree 将成为您的第二大脑,让您不再需要记住细节。稍后,当您想要从索引网页中检索信息时,MemFree 将为您提供所需的精确答案。通过利用这种方法,MemFree 不仅可以智能、高效地管理和搜索您的书签和网页,还可以确保您始终能够快速找到所需的信息,无论这些信息是隐藏在网上的某个位置还是存储在您的个人收藏中。MemFree价格 相关资讯: 10款开源AI搜索引擎项目合集
0
FacePoke

FacePoke

FacePoke简介 FacePoke 是一个免费的建立在LivePortrait框架上的在线AI工具,专注于实时编辑人像的面部表情和头部位置。FacePoke利用先进的AI算法,让用户能够实时调整和操纵数字肖像中的面部特征和表情,赋予静态图像生动的动画效果,如眨眼、嘴部动作等。用户可以通过简单的点击操作,轻松改变数码肖像中的面部特征和表情。FacePoke利用AI技术,使得面部操控变得直观且高效。FacePoke使用步骤:上传肖像图像:用户首先需要上传一张清晰且正面的肖像照片,以确保最佳的编辑效果。调整面部特征:用户可以通过点击和拖动面部特征(如眉毛、嘴巴或眼睛)来调整其位置和形状。此外,还可以通过拖动下巴或额头来改变头部角度,从而创建不同的表情和方向。预览与下载:在完成调整后,用户可以预览编辑后的图像,并在满意时下载高分辨率版本。如何在本地安装和使用FacePoke?环境准备:确保您的计算机上安装了Python和相关的依赖库。FacePoke项目通常需要Python 3.8或更高版本。克隆项目:从GitHub上克隆FacePoke的代码库。您可以使用以下命令:git clone https://github.com/jbilcke-hf/FacePoke.git cd FacePoke安装依赖:在项目目录中,使用pip安装所需的依赖库。运行以下命令:pip install -r requirements.txtDocker部署(可选):如果您希望使用Docker进行部署,可以按照项目文档中的说明进行设置。确保您的计算机上已安装Docker,并根据提供的Dockerfile构建镜像。运行应用:完成依赖安装后,您可以通过以下命令启动FacePoke应用:python app.py这将启动一个本地服务器,您可以通过浏览器访问应用。使用FacePoke:在浏览器中打开应用后,您可以上传照片并开始调整面部特征和姿势。界面友好,易于操作。FacePoke开源项目地址:https://github.com/jbilcke-hf/FacePoke
0
长臂猿AIGC系统

长臂猿AIGC系统

长臂猿AIGC系统简介 长臂猿aiGC系统内置智能聊天对话机器人,AI绘图,AI模型训练,营销内容创作,企业虚拟AI员工等数十项AI功能,可以训练自己的AI机器人,不限制用户数量,支持源码私有化部署,可以用自己品牌掘金AI蓝海市。长臂猿AIGC系统提供基于AI的聊天机器人和AI绘图系统产品,多用户支持,源码程序私有化部署,自带分销功能。长臂猿AIGC系统功能:1、智能对话机器人以对话形式实现创作 客服等工作,并可以通过训练拥有自己的机器人2、AIGC系统内置多种训练模型,可以做所有文字类内容创作、图片创作和设计3、企业AI工作平台用AI驱动企业发展,提高人效,企业级AI系统基于大模型开发训练4、AI训练及开发专业技术团队提供各种基于AI的开发服务长臂猿AIGC系统演示地址:https://ai.changbiyuan.com/#/?org_id=1092&invite=64qTNpVtPi
0
Platon.AI – 柏拉图智能

Platon.AI – 柏拉图智能

Platon.AI - 柏拉图智能简介 Platon.ai柏拉图智能不仅仅是 AI 爬虫,也是 AI agents 的基础设施。 AI agents 要使用工具,就必须高速阅读理解在线网页,理解网页上的每一个元素——这就是 platon.AI 的技术。Platon.AI高效采集并阅读理解复杂网站的AI,完整精确输出数据和知识。使用SQL直接查询互联网,实施商业智能,实现商业洞察。PlatonAI 的自动网页抽取算法是全新的思路,具有显著的性能优势。PlatonAI 将每个网页在浏览器中渲染后,在浏览器中计算出每个 DOM 元素的一系列属性,主要包括元素的位置和大小等,Platon.AI柏拉图智能考察了网页的几何、拓扑、代码结构和语义等各方面的特征,将网页的每一个 DOM 元素建模为流形(manifold)上带属性的矩形,然后进行标准机器学习处理。Platon.AI功能:1、网络数据处理存在以下关键算法难题Platon.AI自动网页提取 - 无人干预自动结构化互联网规模网页,AI辅助网页提取 - 零干预或极少干预,将大规模网页完整精确结构化。2、零干预将网站还原为数据Platon.AI给定入口链接,柏拉图 AI 识别、浏览并解读最重要的链出页,输出全部字段:
0
易魔声EmotiVoice

易魔声EmotiVoice

易魔声EmotiVoice简介 易魔声EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。易魔声EmotiVoice提供一个易于使用的web界面,还有用于批量生成结果的脚本接口。当前的实现侧重于通过提示控制情绪/风格。易魔声EmotiVoice只使用音高、速度、能量和情感作为风格因素,而不使用性别。但是将其更改为样式、音色控制并不复杂,类似于PromptTTS的原始闭源实现。所有用户可免费在开源社区GitHub进行下载使用,并通过提供的 web 界面和批量生成结果的脚本接口实现音色的情感合成与应用。
0
DreamTalk

DreamTalk

DreamTalk简介 DreamTalk,一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。DreamTalk演示地址:https://dreamtalk-project.github.ioDreamTalk项目地址:https://dreamtalk-project.github.io/DreamTalk论文地址:https://arxiv.org/abs/2312.09767DreamTalk使用场景:使用 DreamTalk 生成具有多样化语言和表情风格的说话人脸应用 DreamTalk 在影视制作中实现逼真的虚拟角色表情动作使用 DreamTalk 在人机交互场景中实现自然的面部表情和嘴唇运动DreamTalk功能:具体来说,DreamTalk 由三个关键组件组成:降噪网络、风格感知唇部专家和风格预测器。基于扩散的降噪网络能够在不同的表情中一致地合成高质量的音频驱动的面部运动。为了提高嘴唇动作的表现力和准确性,我们引入了一位具有风格意识的嘴唇专家,可以在注意说话风格的同时指导嘴唇同步。为了消除对表情参考视频或文本的需求,使用额外的基于扩散的样式预测器直接从音频中预测目标表情。1、去噪网络:这是核心组件之一,负责生成音频驱动的面部动作。去噪网络使用扩散模型来逐步去除噪声,从而生成清晰、高质量的面部表情。这个过程涉及从带有噪声的数据中逐步恢复出清晰的面部动作。2、风格感知的嘴唇专家:这个组件专注于提高嘴唇动作的表现力和准确性。它通过分析说话风格来引导嘴唇同步,确保生成的动画既自然又符合说话者的风格。3、风格预测器:为了消除对表情参考视频或文本的依赖,DreamTalk引入了一个基于扩散的风格预测器。这个预测器可以直接从音频预测目标表情,无需额外的表情参考视频或文本。4、音频和视频处理:处理音频输入,提取关键的音频特征,并将这些特征用于驱动面部动画。同时,它还能处理视频输入,以提取和模仿特定的表情和风格。5、数据和模型训练:为了实现这些功能,DreamTalk需要大量的数据来训练其模型,包括不同表情和说话风格的面部动画数据。通过这些数据,模型学习如何准确地生成与输入音频匹配的面部动作。DreamTalk可以利用强大的扩散模型有效地生成富有表现力的面孔,并减少对昂贵的风格参考的依赖。实验结果表明,DreamTalk能够生成具有不同说话风格的逼真的说话面孔,并实现准确的嘴唇动作,超越了现有的最先进的同类产品。DreamTalk不仅能够处理和生成它在训练过程中见过的面部类型和表情,还能有效处理和生成它之前未见过的、来自不同数据集的面部类型和表情。包括不同种族、年龄、性别的人物肖像,以及各种不同的表情和情绪。
0
Zero123

Zero123

Zero123简介 今天,我们发布了稳定版 Zero123,这是我们内部训练的模型,用于生成视图条件图像。与之前最先进的 Zero123-XL 相比,稳定的 Zero123 产生了显着改善的结果。这是通过 3 项关键创新实现的:1、改进的训练数据集,从 Objaverse 中大量过滤,只保留高质量的 3D 对象,我们渲染的对象比以前的方法更加真实。2、在训练和推理过程中,我们为模型提供了估计的摄像机角度。这种海拔调节使其能够做出更明智、更高质量的预测。3、预先计算的数据集(预先计算的潜在变量)和改进的数据加载器支持更高的批量大小,与第一个创新相结合,与 Zero123-XL 相比,训练效率提高了 40 倍。Zero123特征:稳定的 Zero123 可以生成物体的新颖视图,展示从各个角度对物体外观的 3D 理解,由于训练数据集和高程条件的改进,其质量比 Zero1-to-3 或 Zero123-XL 显着提高。该模型基于稳定扩散 1.5,消耗与 SD1.5 相同数量的 VRAM 来生成 1 个新视图。使用 Stable Zero123 生成 3D 对象需要更多时间和内存(建议使用 24GB VRAM)。为了实现 3D 对象生成方面的开放研究,我们改进了 Threestudio 开源代码的开源代码,以支持 Zero123 和 Stable Zero123。 Stable 3D 流程的简化版本目前处于私人预览阶段。从技术角度来说,这使用分数蒸馏采样 (SDS) 来使用稳定的 Zero123 模型来优化 NeRF,稍后我们可以从中创建纹理 3D 网格。该过程可以适用于文本到 3D 生成,首先使用 SDXL 生成单个图像,然后使用 Stable Zero123 生成 3D 对象。Zero123项目:https://github.com/cvlab-columbia/zero123Zero123试用:https://huggingface.co/spaces/cvlab/zero123-liveZero123论文:https://arxiv.org/abs/2303.11328该模型现已发布在 Hugging Face 上,研究人员和非商业用户可以下载并进行实验。
0
QAnything AI

QAnything AI

QAnything AI简介 QAnything ai是一个本地知识库问答系统,旨在支持多种文件格式和数据库,允许离线安装和使用。您可以简单地删除任何格式的任何本地存储文件,并获得准确、快速和可靠的答案。QAnythingQAnything AI目前支持的格式包括:PDF、Word(doc/docx)、ppt、Markdown、Eml、TXT、图像(jpg、png等)、网页链接和更多即将推出的格式......QAnything AI功能:1、多种格式文档,一键上传处理支持一键上传多种格式文档,也支持网页内容获取。有效节约文档处理时间。无需对接QA、格式转换和人工整理文档全面支持PDF、Word(doc/docx)、PPT、TXT、图片、邮件(eml)格式文档和网页链接。具备答案溯源能力,用户可自主按照答案来源获取更多所需信息。2、智能寻找答案,团队协作新体验利用大模型能力快速理解提问者意图,从知识库中提取有效信息,辅助您更快速、更高效的阅读并理解文档,提高工作效率和准确性。智能文档问答可轻松实现知识归纳、构建、问答、推荐等,帮您精准获取有效信息支持聊天记录导入和导出,便于跨设备间的交流协作支持简体中文、繁体中文、英语、韩语、俄语等语言,便于开展国际团队协作3、创建专属知识库,让知识成为价值可根据不同内容领域、访问权限等创建多知识库,无需人工整理,即可拥有专属Ai助手,不断获取新知识。可利用不同知识库的上传文档差异实现访问权限控制,避免无关信息外泄。快速智能分析各类文档,提取文档摘要,帮助您快速实现全文通阅深入挖掘文档结构和细节,实现高效、准确信息识别和提取,帮助您更轻松地获取专业知识QAnything AI主要特点:数据安全,支持全程拔网线安装使用。跨语言QA支持,无论文档使用何种语言,中英文QA自由切换。支持海量数据QA,两阶段检索排名,解决大规模数据检索的降级问题;数据越多,性能越好。高性能生产级系统,可直接部署用于企业应用。人性化,无需繁琐配置,一键安装部署,即开即用。多知识库 QA支持选择多个知识库进行问答为什么要使用QAnything AI?数据安全:模型数据全在本地,可断网使用;确保对数据的控制,以及对隐私的保护。跨语种:可跨语种检索问答,尤其在中英跨语种领域适应海量数据:QAnything更适应于海量数据,随着数据量的增加,准确率越高。高性能:面向生产级别的性能优化,高并发,低延迟,低资源下即可运行使用。一键安装:不需要复杂配置,安装后即可快速使用,减少二次开发量。网易有道致力于提供全球领先的智能学习产品和服务。主要产品包括在线翻译工具、在线词典、语言学习平台和在线教育服务等。网易有道以其强大的技术实力和专业的语言学习经验,成为全球数百万用户的首选学习平台之一。
0
Diffuse to Choose

Diffuse to Choose

Diffuse to Choose简介 Diffuse to Choose主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节,并且能够进行准确的语义操作。Diffuse to Choose能让你在将任何商品放入任何环境中,同时和环境完美融合,并结合感知损失来进一步保留参考物品的细节,该模型在快速推理和高保真细节方面取得了良好的平衡。比如您可以使用Diffuse to Choose装饰您的房间,或者不受任何限制地尝试不同的衣服组合,改变衣服的风格,例如塞进衣服或卷起袖子。Diffuse to Choose能够帮助用户更好地了解产品在真实环境中的样子,提高了在线购物的体验。Diffuse to Choose功能:1、虚拟试穿技术:允许用户在不同环境中虚拟放置商品,实现逼真的在线购物体验。2、与传统扩散模型相比,DTC模型能更好地捕捉商品细节,提升修复质量。采用特殊的算法,将来自参考图像的细粒度特征直接融入主扩散模型的潜在特征图中,保证产品与环境的高度融合。3、高效平衡:在快速推断与保持高保真细节方面达到了有效的平衡。4、广泛测试与评估:在不同数据集上测试,证明了DTC模型相较于现有技术的优越性。5、场景适应性:能够处理多种场景中的图像,确保产品与场景的无缝整合。6、快速推断能力:提供快速且高效的零次射推断,加快虚拟试穿过程。7、修复图像:在虚拟试穿应用中修复图像,为产品图像添加缺失的细节。
0
DuckDB-NSQL

DuckDB-NSQL

DuckDB-NSQL简介 DuckDB-NSQL,一个专门为DuckDB数据库设计的文本到SQL的模型,你可以使用自然语言说描述你的需求,它会自动转换成SQL代码,也就是可以使用自然语言来和你的数据库聊天。DuckDB-NSQL大大简化了数据库查询的过程,使得即使是不太懂SQL语言的用户也能轻松地与数据库进行交互和数据处理。DuckDB-NSQL-7B模型是基于大约200,000条合成生成并验证的DuckDB SQL查询以及来自Numbers Station的超过250,000条一般性文本到SQL问题训练而成的。DuckDB-NSQL不仅能生成有用的DuckDB代码片段,还能生成用于回答分析问题的SQL查询。Hugging Face:https://huggingface.co/spaces/motherduckdb/DuckDB-NSQL-7BDuckDB-NSQL主要特点:1、自然语言处理能力: 能够理解和处理自然语言输入,将用户用普通话语描述的数据查询需求转换成SQL查询代码。2、针对DuckDB优化: 专为DuckDB-NSQL数据库定制,能够充分利用DuckDB的特性和功能。3、高效的查询生成: 对于常见的数据查询任务,如创建表、选择数据、排序和过滤等,都能快速生成准确的SQL代码。4、用户友好的交互: 用户无需深入了解SQL语法,只需通过自然的语言描述就可以进行复杂的数据查询。5、文档式的查询指导: 模型知识覆盖DuckDB 0.9.2中记录的所有功能,包括官方扩展,类似于一个随时可用的文档查询工具。6、低延迟: 为了提供低延迟的SQL辅助特性,该模型采用了相对较小的模型大小,使得推理过程更快、成本更低。7、广泛的应用场景: 不仅能生成DuckDB-NSQL的代码片段,还能生成用于回答分析性问题的SQL查询。8、开源和易于访问: 模型权重在Hugging Face上完全公开,方便用户下载和使用。9、本地运行支持: 支持与llama.cpp一起在本地完全体验,提供了完整的本地运行指导。
0
Open WebUI

Open WebUI

Open WebUI简介 Open WebUI,为大模型提供用户友好界面,支持 Ollama 并兼容 Openai API。特色有直观聊天界面、响应式设计。支持代码高亮、Markdown、LaTeX、RAG 集成、网页浏览、预设提示、RLHF 注释、模型管理、多模型和多模态、历史记录管理、语音输入、高级参数调整等。Open WebUI功能特征:直观的界面:我们的聊天界面从 ChatGPT 中汲取灵感,确保用户友好的体验。响应式设计:在桌面和移动设备上享受无缝体验。快速响应:享受快速响应的性能。轻松设置:使用 Docker 或 Kubernetes(kubectl、kustomize 或 helm)无缝安装,获得轻松的体验。代码语法高亮:使用我们的语法高亮功能增强代码可读性。完整的 Markdown 和 LaTeX 支持:通过全面的 Markdown 和 LaTeX 功能提升您的 LLM 体验,以丰富交互。本地 RAG 集成:通过开创性的检索增强生成 (RAG) 支持深入了解聊天交互的未来。此功能将文档交互无缝集成到您的聊天体验中。您可以将文档直接加载到聊天中或将文件添加到文档库中,使用提示符中的命令轻松访问它们。在 alpha 阶段,当我们积极改进和增强此功能以确保最佳性能和可靠性时,可能会偶尔出现问题。#网页浏览功能:使用命令后跟 URL 将网站无缝集成到您的聊天体验中。此功能允许您将 Web 内容直接合并到您的对话中,从而增强互动的丰富性和深度。#提示预设支持:使用聊天输入中的命令立即访问预设提示。毫不费力地加载预定义的对话启动器并加快您的交互速度。通过Open WebUI社区集成轻松导入提示。/RLHF 注释:通过竖起大拇指和竖起大拇指对消息进行评分来增强您的消息,从而促进创建用于人类反馈强化学习 (RLHF) 的数据集。利用您的消息来训练或微调模型,同时确保本地保存数据的机密性。对话标记:轻松分类和定位特定聊天,以便快速参考和简化数据收集。下载/删除模型:直接从 Web UI 轻松下载或删除模型。文件模型创建:通过直接从 Web UI 上传 GGUF 文件,轻松创建 Ollama 模型。简化流程,可选择从您的机器上传或从 Hugging Face 下载 GGUF 文件。多模式支持:在不同的聊天模式之间无缝切换,实现多样化的互动。多模态支持:与支持多模态交互的模型无缝交互,包括图像(例如 LLava)。模型文件生成器:通过 Web UI 轻松创建 Ollama 模型文件。创建和添加角色/代理,自定义聊天元素,并通过Open WebUI社区集成轻松导入模型文件。多模型对话:毫不费力地同时与各种模型互动,利用它们的独特优势获得最佳响应。通过并行利用一组不同的模型来增强您的体验。协作聊天:通过无缝编排群组对话,利用多个模型的集体智慧。使用该命令指定模型,从而在聊天界面中启用动态和多样化的对话。让自己沉浸在编织在聊天环境中的集体智慧中。@OpenAI API 集成:毫不费力地集成与 OpenAI 兼容的 API,以便与 Ollama 模型进行多功能对话。自定义 API 基本 URL 以链接到 LMStudio、Mistral、OpenRouter 等。再生历史访问:轻松重新访问和探索您的整个再生历史。聊天记录:轻松访问和管理您的对话记录。导入/导出聊天记录:无缝地将您的聊天数据移入和移出平台。语音输入支持:通过语音交互与您的模型互动;享受直接与模特交谈的便利。此外,探索在静音 3秒后自动发送语音输入的选项,以获得简化的体验。使用高级参数进行微调控制:通过调整温度等参数和定义系统提示来获得更深层次的控制,以根据您的特定偏好和需求定制对话。外部 Ollama 服务器连接:通过配置环境变量,无缝链接到托管在不同地址上的外部 Ollama 服务器。基于角色的访问控制 (RBAC):使用受限权限确保安全访问;只有经过授权的个人才能访问您的 Ollama,并且为管理员保留独家模型创建/提取权限。后端反向代理支持:通过Open WebUI后端和Ollama之间的直接通信来增强安全性。此关键功能消除了通过 LAN 公开 Ollama 的需要。从 Web UI 向“/ollama/api”路由发出的请求从后端无缝重定向到 Ollama,从而增强了整体系统的安全性。持续更新:我们致力于通过定期更新和新功能来改进 Open WebUI。
0
懒人客服

懒人客服

懒人客服简介 懒人客服是一个基于 LLM 大语言模型的知识库的集成客服系统,提供开箱即用的智能客服解决方案,支持微信、企业微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台接入,支持文本、语音和图片,通过插件访问操作系统和互联网等外部资源,支持基于自有知识库定制企业ai应用。懒人客服主要功能:多平台支持:当前支持微信、企业微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台,未来将不断扩展支持更多社交媒体平台。预设回复内容:允许用户设置自定义回复,以应对常见问题,提高回复效率.接入ChatGPT接口,根据客户的咨询内容智能生成回复,适用于处理复杂或者个性化的客户咨询。发送图片和二进制文件:支持发送图片等二进制文件,满足多样化的客户服务需求.知识库: 通过上传知识库文件自定义专属机器人,可作为数字分身、智能客服、私域助手使用。各个平台独立的插件系统,支持插件访问操作系统和互联网等外部资源,支持基于自有知识库定制企业 AI 应用。GitHub: https://github.com/cs-lazy-tools/ChatGPT-On-CSGitee: https://gitee.com/alsritter/ChatGPT-On-CS (国内用户推荐)注:懒人客服只是一个用于对接外部平台的客服工具,不提供任何平台的账号,需要自行准备。并且知识库功能也需要自行准备,该项目目前只支持的 OpenAI 的 API 接口(或代理)接入
0