微调Flux席卷全网，外国小哥一人组一队漫威英雄

2024-08-20 生活百科 0 0 653

详情介绍
常见问题

之后，从未见人们对某个AI生图应用，如此疯狂着迷。

Flux的横空出世，意味着AI图像生成迈入了一个全新的阶段。

马斯克本人表示，真假已经傻傻分不清。

先是，一张TED演讲者逼真照片席卷了整个互联网。再之后，集成Flux模型的Grok 2破除护栏限制，被网友玩疯。

最近，Flux开发者们也纷纷入坑，开启微调自己的LoRA模型。

联创惊叹道，Flux已经完全席卷了开源AI界，从未见过一个模型，同时有如此多的衍生模型/在线平台/demo占据热榜。

一手微调的开发者表示，「Flux+LoRA将颠覆生成式AI市场。你可以在任何地方，戴着任何东西，穿着任何你喜欢的衣服，生成不同的自己」。

比如，让自己变身超人。

拿上伸缩光影剑，变身绝地武士，愿原力与你同在。

不仅如此，冰雕，拿着游戏机，精灵耳，时装走秀等各种形象的照片，都是动动嘴皮子的事。

微调自己的LoRA，现已经成为许多开发者的新玩物。

这不，全网都被Flux+LoRA淹没了。

一个人就能组成「复仇者联盟」

AI的创始人Rowan 将自己的照片作为数据，用Flux训练了一个LoRA模型，然后联动让其动起来。

如下，生成了一张类似TED演讲者的图片。

做成视频后，照片中的自己真的活灵活现了，很有演讲者范儿。唯一不足的是，右手到后面指头就变成了2-3根。

另一张，生成了以超人身份拯救世界的自己。

配上动画，终于做了一回漫威中的英雄。

再生成一张身穿时装，走秀现场的照片。

两边观众热烈鼓掌，也算是体验了一把T台走秀。

此外，Rowan 还生成了不同风格的自己，和场景融合自洽，毫无违和感。

他认为，虽然AI生图依旧不能替代完整的电影/商业广告，但其已经有很多重要的用途，尤其对内容创作者来说。

比如，这些AI图片制作用于新闻的预览图和配图，以及短片中的补充素材（B-roll）。

网友Min Choi看后表示，自己可以组建一支「复仇者联盟」了。

前英特尔CTO在A100上，同样微调了一个自己的LoRA模型，75分钟花费了7美金（约50元）。

还有开发者硬是把自己拍成了恐怖片。

分不清AI还是现实

要说最火的，还是「超现实主义」的微调版本——让人越来越分不清想象和现实的边界了。

是真实的照片，还是AI画出来的人？

在Flux-Dev中用LoRA训练后，无论是场景复杂性还是真实感，都取得了不可思议的进展。

什么风格都能微调

除此之外，各种不同风格的微调也层出不穷。

像素风格

开发者以传奇的ZX 中的风格为例，微调出类似像素的图片生成LoRA。

下面生成图像中，有龙珠孙悟空、漫威钢铁侠、川建国（貌似）等形象。

动画涂鸦

PS生成式AI产品设计人Davis Brown基于Flux，微调出了一个模型。

它生成的图片，有一部分是真实照片的画风，一部分是动画涂鸦的风格。

每次生图前，只需要在提示开头加上——In the style of TOK。

然后，具体描述想要的效果，就能立即出片。

以后感觉不一定非得用PS，直接AI生图就可以了。

：In the style of TOK, a photo avant-garde pose of a woman short blue hair 70s round wacky down , in Tokyo with large and trees at with a by of , smoke, , ice cream, , rock and roll

：In the style of TOK, a photo pose of a eyes, on face, with hat, in Tokyo with large and white trees in a court, with a wear puffy , black shirt, in the , by of smoke, , and , fog, marks, lines , ,

还有其他涂鸦风格的照片。

九宫格

开源数据集平台LAION用Flux模型，训出了一个可以生成3×3九宫格照片，还是不同角度的自己。

以后自拍一张，就够了。

不同年龄

一个人一生的样貌，透过Flux+LoRA便可看到。

另一个例子：

可玩性超强

今天的主角——FLUX.1，采用了一种全新的「流匹配」技术。

以前的扩散模型是通过逐步去除从随机起点开始的噪声来创建图像，而流匹配则采用更直接的方法，学习将噪声转换为真实图像所需的精确变化。

这种方法上的差异带来了独特的美学风格，并在速度和控制方面具备极大的优势。

文本：大部分都能get到

文本到图像生成的挑战之一是准确地将文字转化为视觉表现。FLUX.1在这方面处理得相当好，即使是在像表情包这样复杂的场景中。

：

dog meme . Text: ‘ is fine’

这是一个在水下的「fine dog」表情包。文字：「气候变化问题不大」

：

A meme of a actor a funny face with the text ‘When you your lines’ in a font

一位著名演员做鬼脸的表情包，上面用古怪的字体写着「当你忘词的时候」

光线和质感都不错

FLUX.1对光线、阴影和纹理有敏锐的理解，能始终如一地生成高质量的图像。

：

A image of a where the are made of glass, the

一个花园的详细图像，其中的花朵由精致的玻璃制成，阳光下反射出美丽的光芒

在这幅图里，重点不仅在于玻璃的质感，还在于光线如何通过花瓣折射和传递，创造出一种发光的效果。

：

Owl with in wind

猫头鹰的羽毛与秋叶在风中融合

艺术风格：不止是模仿

FLUX.1似乎掌握了各种艺术风格背后的原理，使得创造性的重新诠释成为可能。

：

of wave

著名波浪画的水彩画

这幅《神奈川冲浪里》的「水彩」版本不仅暗示着标志性波浪是模型训练数据的一部分，还突出了「流」技术如何近似颜料在水、纸和墨水中的运动。

构图：让场景有意义

FLUX.1擅长构建复杂的场景，以一种既真实又有视觉吸引力的方式放置物体和角色。

：

A image of an where books float in mid-air and the are made of , roots

一个现实主义的魔法图书馆图像，书籍在空中漂浮，书架由古老扭曲的根制成

「流」：一种新的视觉语言

FLUX.1所采用的流匹配技术，赋予了图像一种独特的有机运动感和流动性，仿佛像素本身在流动。

：

Dog with , Van Gogh-style fur

狗身上有旋转的梵高风格的毛发图案

总有一款工具，能帮你搞定

我们可以把图像的生成过程概括为：获取一些输入像素，将它们从噪声中稍微移开，朝着由你的文本输入创建的模式移动，并重复这一过程，直到达到设定的步骤数。

而微调过程则是从数据集中获取每个图像/标注对，并稍微更新其内部映射。

只要可以通过图像-标题对表示，你就可以通过这种方式教会模型任何内容：角色、场景、媒介、风格、流派。

左：使用原始FLUX.1模型生成；右：使用相同提示和种子，在fofr/flux-bad-70s-food模型上生成

在训练中，模型将会学习如何把这些概念与特定的文本字符串关联起来。而在提示中，则需要加入这个字符串来激活这种关联。

比如，你想微调一个「漫画风超级英雄」的模型。

首先，需要收集大量关于角色的图像作为数据集，包括但不限于：不同的场景、服装、灯光，甚至可能是不同的艺术风格

然后，选择一个简短且不常见的词或短语作为你的触发词：一种不会与其他概念或微调冲突的独特内容。你可能会选择像「糟糕的70年代食物」或「」这样的词。

在训练完成之后，你只需给出一个包含触发词的提示，如「在旧金山的聚会上拍摄糟糕的70年代食物的场景」，模型就会调用你之前微调时加入的特定概念。

就这么简单。

在了解了原理之后，我们就可以任选一个工具来微调模型了。

左：使用原始FLUX.1模型生成；右：使用相同提示和种子，在fofr/flux-bad-70s-food模型上生成

比如一位叫Matt Wolfe的小哥，在看到上面这些酷炫的生成之后，也好奇地上手试了一把。

结果，他翻车了……

做出的AI图像，堪称买家秀和卖家秀的区别。

这是他生成的——

这是别人的——

两张图片高下立判，区别就在于用没用LoRA微调。

被刺激到的小哥，立刻去研究了一番，他惊喜地发现，LoRA模型很小，只有2到500 MB，可以轻易地和现有的模型结合。

更令人惊喜的是，并不需要额外的算力，也不需要全面的再训练，就可以让AI模型提高画质，产生独特的风格，或者生成特殊的人物，比如马里奥或者海绵宝宝。

遗憾的是，在小哥用得顺手的Glif上，Flux中并不能使用LoRA。

他发现，能使用Flux的其中一种方法，是用。

这张图，相信很多人都很熟悉了

或者，也可以使用、或Fal AI之类的平台。

小哥在Fal平台上试用后，发现每百万像素花费0.035美元，所以，只要花1美元，就可以运行模型29次，还是比较划算的。

在这里FLUX.1 dev、Flux LoRA、FLUX.1 pro等等，都是可以使用的。

小哥二话不说，选择了Flux LoRA。

经过精心调试后，小哥将推理步长设置在了28，CFG设置在了2。

产生的图像，效果非常惊喜！

如果说有什么瑕疵，就是额头皱纹处的打光仍然不自然。

接下来，小哥兴奋地将图像导到Gen-3 Alpha中，根据他输入的，Gen-3 Alpha生成了视频。

除了在某一刻，手中的麦克风突然「飘浮」了起来，视频的其余部分，挑不出太大毛病了。

小哥又尝试了一遍，生成了第二个视频。

这一次，麦克风又显得太过静止了，仿佛定在了原地。

另外，小哥也加入了全网爆改自己的大潮，生成一系列爆笑的照片。

最后，小哥再用Gen-3 Alpha把它变成视频，就让自己和死侍走在了同一部电影的画面中。

参考资料：

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

———END———
限时特惠： 本站每日持续更新海量各大内部创业教程，永久会员只需109元，全站资源免费下载点击查看详情
站长微信： nanadh666

声明：1、本内容转载于网络，版权归原作者所有！2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！

信息安全加密密码解密

免费下载或者VIP会员资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。
提示下载完但解压或打开不了？

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们。
找不到素材资源介绍文章里的示例图片？

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。
付款后无法显示下载地址或者无法查看内容？

如果您已经成功付款但是网站没有弹出成功提示，请联系站长提供付款信息为您处理
购买该资源后，可以退款吗？

源码素材属于虚拟商品，具有可复制性，可传播性，一旦授予，不接受任何形式的退款、换货要求。请您在购买获取之前确认好是您所需要的资源