第一个无自然语言的纯视觉大模型,证明了纯视觉模型本身也是可扩展的。该模型支持多种数据形式,通过上下文学习来理解并执行下游任务,具有很强的可扩展性。
Upscayl 是一款能够将任何图像(未来将支持视频)放大至更高分辨率,并增加细节的工具。它使用先进的算法来提升图像质量,使图像更加清晰和生动。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
gptme是一款可以在本地终端运行的个人AI助手,能够编写代码、使用终端、浏览网页和查看图像。支持多种操作和主流LLM提供商。
stable-video-diffusion.cc 是一个免费工具,利用 Hugging Face 的能力,帮助用户轻松将图像转换为视频,并提供教学视频和相关示例。
CLIP(对比语言-图像预训练)是一种神经网络,训练于各种(图像,文本)对之间。它可以通过自然语言指示,在不直接优化任务的情况下,预测给定图像最相关的文本片段,类似于 GPT-2 和 GPT-3 的零样本能力。
该API旨在检测图像中的不适宜(NSFW)内容。用户只需将图像文件发送到指定的端点,API将利用AI算法分析图像,并提供一个分数,指示图像中包含明确或敏感内容的可能性。
Residual Attention是一种简单但有效的多标签识别方法,利用残差注意机制,能够在多标签任务中表现出色。
这个项目是一个AI在线图像处理工具,能够快速去除图片上的水印。用户只需上传图片,水印将在5秒内被移除,非常方便。