语言模型和视觉助手-LLAVA
今天介绍一个新的语言模型和视觉助手-LLaVA ,LLaVA 是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员开发的大型语言和视觉助手。它是一个端到端训练的大型多模态模型,结合了视觉编码器和语言模型,用于通用的视觉和语言理解。这是它的github地址:GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large La…
今天介绍一个新的语言模型和视觉助手-LLaVA ,LLaVA 是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员开发的大型语言和视觉助手。它是一个端到端训练的大型多模态模型,结合了视觉编码器和语言模型,用于通用的视觉和语言理解。这是它的github地址:GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large La…
今天介绍一个神奇的AI音乐网站-Kits.ai ,Kits.ai 是一个专注于人工智能音乐创作的网站。它提供一系列工具和资源,帮助音乐家使用人工智能来创作、制作和表演音乐。首先打开它的主页:Kits AI - the ultimate AI voice generation toolkit to supercharge your music Kits.Ai的网站可以完成一键变声操作,非常简单。Kits旨在为用户提供最简单的语音克隆,Ai歌曲翻唱文…
简介:Acunetix Web Vulnerability Scanner(简称AWVS)是一款知名的自动化网络漏洞扫描工具,它通过网络爬虫测试你的网站安全,检测流行安全漏洞。它可以扫描任何可通过Web浏览器访问的和遵循HTTP/HTTPS规则的Web站点和Web应用程序。适用于任何中小型和大型企业的内联网、外延网和面向客户、雇员、厂商和其它人员的Web网站。WVS可以通过检查SQL注入攻击漏洞、XSS跨站脚本攻击漏洞等漏洞来审核Web应用程序的…
语义搜索是 LLM 工程中的重要一环,它可以通过特征向量对海量的文本数据进行匹配,从而使 LLM “突破” token 数量限制,获取更海量的信息。本文将使用 LangChain + Gradio + FAISS 对这项技术做一个基本的实现。以下是 ChatGPT 对 Embedding 向量搜索的解释,和 cohere 语义搜索的框架图。 Embedding 向量搜索是一种基于向量空间模型的搜索技术,它通过将文本转化为向量形式,实现文本相似度比…
简介 ControlNet 使 Stable Diffusion 有了一层额外的控制,官方的实现中可以从深度、边缘线、OpenPose 等几个维度控制生成的图像。不过ControlNet的Brightness模型在国内被玩出花来了,这是上次在SD上AI生成光影图像的教程:点击此处。那么ControlNet Brightness如何训练的?我们可以通过亮度(brightness / grayscale)控制生图,从而实现老照片还原彩色、…
设想 在Midjourney 生成风格图,并训练后在 SD WebUI 中使用,发现目前虽然有控制构图,骨骼,人物等的 controlnet ,但是缺少一个让美术从 0 - 1 的,针对光影和构图的控制工具,于是设想是否可以制作这样的一个 controlnet 。在阅读并尝试跑通了 controlnet 原作者的 demo 后,发现这中设想是可行的。 使用教程 测试版下载连接: 测试版 ( 分为三个训练步骤,你可以分别尝试他们 ) 目前…
有朋友私信我关于Stable Diffusion Web UI部署中遇到的问题,我觉得很有帮助下面,我列举一些对Web UI 速的举措。 当然如果是 4080 及以上的显卡,直接抄下面代码: set COMMANDLINE_ARGS=--listen --opt-sdp-attention --enable-insecure-extension-access --disable-nan-check --opt-channelslast 其中,--…