新浪科技

TikTok乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

创事记

关注

欢迎关注“新浪科技”的微信订阅号:techsina 

文/杜晨

来源/硅星人(ID:guixingren123)

突然间,AI文字转图片成为了全球科技业的一大流行技术趋势。

几周前我们报道了“新一代梗图之王” DALL·Emini,一个脑洞十分清奇的文字转图片AI小工具。当时我们也提到,包括谷歌、OpenAI 等大公司和顶级研究机构都在开发相关模型,就连时尚杂志《COSMO》都采用AI来设计杂志封面。

然而令许多人没想到是:

就在各家硅谷大厂斥巨资研发、砸了无数的人力、发了无数的论文,却还在测试相关技术的时候,TikTok居然异军突起,首先把AI文字转图片做到了产品里,而且直接交到了全球十亿用户的手上……

乱拳打死老师傅,中国速度太快了

在TikTok的特效菜单下,最近增加了一个名叫“AI绿幕”(AIGreenscreen)的新选项。

点击这个选项,然后在屏幕中间的对话框里输入一段文字描述,只用不到5秒的时间,TikTok就可以根据文字描述生成一张竖版画作,用作短视频的背景:

TikTok用的这个文字转图片模型,还是非常简单的。硅星人测试了几个含义大相径庭的提示,生成的图片可以说都十分的“迷幻",没有任何写实色彩。

但这并不是缺点缺点——正相反,生成结果具有非常强的水彩/油画感觉,风格迁移(styletransfer)的痕迹明显,而且用的颜色也都鲜亮明快,给人一种耳目一新的感受。

我特别想单独说一下我自己生成的两张图片:

下图左边的提示字段是知名游戏“最后生还者”。生成结果的辨识度太高了,这不正是游戏主角Ellie被泥浆血水浸湿的头发吗?

右图更有意思,提示是“轰炸”:我完全没有想到如此“不和谐”的字段,TikTok的模型居然生成的结果却相当的“自洽”,特别是图中的“轰炸机”反而看起来像是代表和平的“白鸽”——是否你也能读出一点讽刺的意味?

当然话说回来,这些只是我自己的解读和感受,绝不可能是模型的“本意”。但是有趣的艺术作品不正应该是这样嘛,让人能够发现一些巧妙的“彩蛋”,甚至浮想联翩,解读出另外的含义。

从这一角度,我还是非常认可TikTok目前部署的这个模型的。

模型的质量也值得一提。TheVerge、TechCrunch等美国媒体测试了一些特殊的敏感字段,AI绿幕生成结果更加抽象了,显示出字节部署的模型在争议字段上可能已经做出了提前规避。

要知道AI文字生成图片本来就不是简单的技术,避免争议/道德风险更是一项相当复杂的工作。

正如文章前面提到,谷歌、OpenAI等巨头公司和知名机构开发的AI文字生成图片模型,目前都处于刚刚发布或者小范围测试,还在“纸上谈兵”的阶段。

这边TikTok不仅很快跟进推出了同类模型,更厉害的是已经将其投放到全球十亿用户量级别的产品里了。

本来以为AI艺术创作的潮流还是几个硅谷大厂在引领,没想到字节跳动居然“乱拳打死老师傅”——必须给中国互联网科技公司的工作速度和质量点赞了。

AI创作成潮流,硅谷大厂挤破头

早在2020年,全球知名的人工智能基础科研机构OpenAI发布了一个名为GPT-3语言模型。当时OpenAI的论文题为“LanguageModelsareFew-ShotLearners”,直接点出了超大规模语言模型在多种非训练人物上具备强大、快速的学习和掌握能力。

GPT-3也完全没令人失望,在小范围开放测试API之后,外界人士用它开发出了各种各样神奇的demo,展示了写段子、翻译公式、解数学题、完成用户界面设计、生成财务报表等能力。

“AI文字生成图片”也是这些能力的其中一项。

包括 OpenAI、谷歌、Midjourney、StabilityAI 等一众大小公司,已经开发出了多个文字转图片生成模型,展示出神经网络模型具备令人惊讶的艺术创作能力。

 AI文字转图片生成技术开始得到公众关注,到今天各路大厂和小公司挤破头也要掺和,各种不开放的、的、收费和免费的模型层出不穷……也就过去了一年左右的时间。

在这些模型当中,OpenAI的DALL·E是最著名的一款。该模型一代于2021年推出,今年刚刚更新到了二代。用户只需提供自然语言描述,模型就能够生成非常写实 (photorealisitic) 的图片。

除了从零开始生成全新照片,DALL·E2还有更多功能,适合现实中多种艺术工作场景。

比如它的编辑能力,可以在一张已经存在的照片中,在用户任选的位置“删除”或者“添加”物体,并且编辑后的效果仍然很写实:

再比如 DALL·E2还具备“启发”的能力,能够根据一张已经给定的图片,生成风格近相同的新照片:

顺便一提:有个跟OpenAI没关系的第三方开发者,自己仿着DALL·E做了一个图片生成模型,还给免费开放了,取名为DALL·Emini。

结果这个“仿制品”比正品还受欢迎,在社交网络Twitter上专门搬运这个模型生成的奇怪图片的账号,粉丝量都破了百万。甚至逼得OpenAI专门出来澄清跟它没关系,要求开发者做出改变。现在这个免费小工具已经改名为 Craiyon了。

(听说此事之后,粉丝们还做了一张梗图,嘲笑OpenAI那边还在控制测试权限,这边DALL·Emini早就给全网玩嗨了……)

而在硅谷大厂的行列当中,现在谷歌是已知动作最快的,在DALL·E2出来不久后也发布了自己的模型,名为Imagen。

就像DALL·E的根源是语言超大模型GPT-3,Imagen的根源也是谷歌开发的泛用型超大语言模型T5。至于Imagen的这个命名,其实是图片(image)+生成(generate)的混成词。

虽然做的比DALL·E晚,同样作为硅谷知名AI研究型公司的谷歌,还是非常不服OpenAI的,宣称找人做了一堆同类模型的盲测,结果是受试者更喜欢Imagen生成的结果,认为其在“生成质量”和“文字描述还原度”上都更胜一筹。

——当然,究竟是DALL·E2和Imagen谁的生成结果更好,还是一个很主观的,见仁见智的事情。在技术实现上,这两家其实大同小异,都是用了Diffusion(扩散)模型生成,然后再用Super-Resolution(超分辨率)技术来让生成结果更加清晰。

还有更多规模更小的新创公司也在做AI图片生成和艺术创作这件事。

其中一家比较有意思的公司就是Midjourney,其创始人是原知名动作感应技术公司LeapMotion创始人DavidHolz;公司的投资人和顾问团队更是相当强大,都是苹果特斯拉AMD、GitHub等知名公司的核心人物。

Midjourney跟OpenAI、谷歌的写实方向背道而驰,而是在抽象、艺术性、独特风格之间寻求某种巧妙的结合点,这也是这家公司和其模型比较特别之处。另外Midjourney开放模型技术的做法也很“年轻化”,不是发布API和文档,而是把服务接口做到了聊天软件Discord里。

说完这些比较知名的公司,再来看一家名不见经传,但是和TikTok一样出手极快的美国公司:StabilityAI。

这家公司总部位于硅谷LosAltos,在上周刚刚发布了一个可以免费使用的AI图片生成产品StableDiffusion。

StableDiffusion和前面介绍的几个写实派模型没有太大不同。但是和产品、公司名称里的“稳定”正相反,这个模型在有害/争议字段的处理上,可以说完全没有任何作为。而又因为产品是完全免费提供给公众的,已经有很多用户用它制作deepfake、暴力、恐怖主义、虚假新闻图片等有害的内容了……

最近大半年,AI图片生成已经成为了一个名副其实的科技行业“热词”,只是没想到,OpenAI和谷歌做了这么多年,却被 TikTok给悄无声息地跑赢了。接下来,应该会有更多的科技公司也参与其中,不少全民应用背后的大厂估计又要忙活着把这项技术加到产品中了。

【玉渊谭天:资本市场“美国例外论”正在瓦解】过去,美国市场就像一个巨大的磁铁,当贸易摩擦的硝烟升起时,投资者本能地认为,资金躲进美国最安全。但今年,情况颠倒了。以标普500指数为代表,特朗普上任头三个月,下跌超过14%,大幅跑输全球大部分市场。7月初,美国宣布要对日韩等国加征高达40%的关税。消息一出,亚洲和欧洲市场反应平淡,甚至普遍上涨,日韩股市当天分别上涨了0.26%和1.81%。反而是美股自己,应声下跌。三大指数全线收跌,道琼斯指数领跌。这意味着,市场认为,美国挥出的关税大棒,砸伤自己的可能性,比砸伤别人更大。当一国对多国发起贸易战,冲击是会累积的,最终反作用于自身。 这种变化背后是一种趋势:各国市场对特朗普政策的敏感度不断下降,只有美国本土市场反应最为直接。或许也正是因为关税政策对美国自身的冲击要更大,美国政府在前两日公布关税信函之后,后面再发布关税相关政策时,都刻意避开了美股的交易时间段。中国社科院世经政所的杨子荣跟谭主分享,美国对各国加征关税,是一国对多国,具有累积效应,对美国自身的冲击是最大的。而且,美国反复无常的风格也在加速这种市场预期的形成。

【玉渊谭天:国际投资者无法轻易依靠美元汇率来赚钱了】今年以来,美元指数不断走弱,已经跌至近年来的低点。而支撑其强势地位的财政、科技、股市这三个元素,也开始显露疲态。回头看,曾被市场深信不疑的几个看法,美元资产最值得信赖、美国市场是全球资本的避风港,如今都经历着现实的重新检验。它们都在被同一种力量侵蚀。这种力量,不是来自外部的敌人,而是来自内部的“战略”。 今年第二季度,美国长期债券基金已流出近110亿美元,创下自2020年以来的最大撤资潮。仅今年5月,欧元区超过一年期的债务就吸引了970亿欧元的净流入,是自2014年以来单月最高水平。花旗银行分析表示,这很可能是投资者撤离美元资产的表现。

【2025世界人工智能大会发表《人工智能全球治理行动计划》】7月26日,2025世界人工智能大会暨人工智能全球治理高级别会议发表《人工智能全球治理行动计划》。《计划》提出,促进人工智能创新发展。秉持开放共享精神,鼓励大胆尝试探索,搭建各类国际科技合作平台,营造创新友好的政策环境,加强政策与监管协调,促进技术合作与成果转化,降低和消除技术壁垒,共同推动人工智能技术创新突破与持续发展,深度挖掘“人工智能+”开放应用场景,提升全球人工智能创新发展水平。(新华社)

【玉渊谭天:资本市场“美国例外论”正在瓦解】过去,美国市场就像一个巨大的磁铁,当贸易摩擦的硝烟升起时,投资者本能地认为,资金躲进美国最安全。但今年,情况颠倒了。以标普500指数为代表,特朗普上任头三个月,下跌超过14%,大幅跑输全球大部分市场。7月初,美国宣布要对日韩等国加征高达40%的关税。消息一出,亚洲和欧洲市场反应平淡,甚至普遍上涨,日韩股市当天分别上涨了0.26%和1.81%。反而是美股自己,应声下跌。三大指数全线收跌,道琼斯指数领跌。这意味着,市场认为,美国挥出的关税大棒,砸伤自己的可能性,比砸伤别人更大。当一国对多国发起贸易战,冲击是会累积的,最终反作用于自身。 这种变化背后是一种趋势:各国市场对特朗普政策的敏感度不断下降,只有美国本土市场反应最为直接。或许也正是因为关税政策对美国自身的冲击要更大,美国政府在前两日公布关税信函之后,后面再发布关税相关政策时,都刻意避开了美股的交易时间段。中国社科院世经政所的杨子荣跟谭主分享,美国对各国加征关税,是一国对多国,具有累积效应,对美国自身的冲击是最大的。而且,美国反复无常的风格也在加速这种市场预期的形成。

【玉渊谭天:国际投资者无法轻易依靠美元汇率来赚钱了】今年以来,美元指数不断走弱,已经跌至近年来的低点。而支撑其强势地位的财政、科技、股市这三个元素,也开始显露疲态。回头看,曾被市场深信不疑的几个看法,美元资产最值得信赖、美国市场是全球资本的避风港,如今都经历着现实的重新检验。它们都在被同一种力量侵蚀。这种力量,不是来自外部的敌人,而是来自内部的“战略”。 今年第二季度,美国长期债券基金已流出近110亿美元,创下自2020年以来的最大撤资潮。仅今年5月,欧元区超过一年期的债务就吸引了970亿欧元的净流入,是自2014年以来单月最高水平。花旗银行分析表示,这很可能是投资者撤离美元资产的表现。

热门评论

N折腾 2
TikTok要定义AI图片、艺术与AI文字生成转换!
河北承德
回复TA
奋斗精神在流失 1
火星公司,看它干嘛
江苏
回复TA
张应兵-OuduMe 0
所谓根据一句“深山藏古寺”画图。
江苏苏州
回复TA

undefined

好的评论会让人崇拜
查看4条评论
请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~