每周AI新闻(2024年第3周)Meta研发Llama 3 | 苹果Vision Pro预售 | 智谱AI发布GLM-4

我是陌小北,一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00,准时解读每周AI大事件。

大厂动向

【1】Meta研发Llama 3,构建开源AGI

Meta公司CEO马克·扎克伯格(Mark Zuckerberg)=宣布公司将对两个关键AI研究部门进行重组。这两个部门分别是FAIR(Facebook AI Research)和生成式AI团队。此次重组的目的是为了支持开源人工通用智能(AGI)的长期目标。Meta正在积极推进其下一代AI模型Llama 3的训练,并正在建设大规模的计算基础设施。扎克伯格透露,到今年年底将达到35万个H100,算上其他GPU则总共拥有近60万个H100的等效算力。

【2】Sam Altman在达沃斯世界经济论坛的一些观点

2024年达沃斯世界经济论坛,OpenAI CEO Sam Altman接受彭博记者采访,主要观点如下:
(1)AGI将在不久的将来出现,但对社会和工作的影响程度可能远低于预期。
(2)尽管AI的潜力超过预期,但它没有像人们想象的那样大规模地取代工作。
(3)OpenAI永远不会成为以盈利为目的的传统公司,但股权组织结构可能会变化。
(4)Altman认为虽然未来可能会有新的技术出现,但智能手机不会消失。
(5)关于新模型的名字,Altman还没有明确的想法,但他称不喜欢像“iPhone 27”这样的命名方式。

【3】苹果Vision Pro开启预售

苹果首款头显设备Vision Pro正式开启预售,线下门店首批货源不到30分钟即宣告售罄。Vision Pro包含256GB、512GB和1TB三种规格,售价分别为3499美元、3699美元、3899美元。此次预售仅针对美国市场开放,官方将在2月2号开始发货。

【4】腾讯发布视频生成模型VideoCrafter2

腾讯AI实验室发布了视频生成模型VideoCrafter2。该模型研究了利用低质量视频和合成高质量图像获得高质量视频模型的可行性,通过使用高质量图像对空间模块进行微调,在不降低运动质量的情况下,将分布转移到更高质量的视频上,克服了高质量视频扩散模型的数据限制。
项目主页:
https://ailab-cvc.github.io/videocrafter2
论文地址:
https://arxiv.org/pdf/2401.09084.pdf
Demo试用:
https://discord.gg/RQENrunu92

【5】字节跳动推出MagicVideo-V2

字节跳动推出MagicVideo-V2,据第三方测试远超Runway和Pika,这是一个多阶段、端到端的视频生成测试版研究平台,改进了他们于 2022 年 11 月发布的原始生成 AI 图像和视频研究项目 MagicVideo。MagicVideo-V2将文本转图像、视频运动生成、参考图像嵌入和帧插值模块整合到一个端到端的视频生成流程中。文本转图像模块从文本提示生成初始图像,而视频运动生成、参考图像嵌入和帧插值模块则通过细化和增强视频质量。

项目主页:https://magicvideov2.github.io/
论文: https://arxiv.org/abs/2401.04468

【6】阿里推出MotionShop,可将视频中的角色替换为3D化身

阿里推新项目MotionShop,利用先进的视频处理和3D渲染技术,能够高效地将视频中的某个角色替换为3D人物,同时不改变视频中的其他场景和人物。

项目主页:
https://aigc3d.github.io/motionshop
Demo试用:
https://modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

【7】百度发布视频生成模型UniVG

百度发布了视频生成模型UniVG,是一种统一模式视频生成系统,能够以文本和图像的任意组合作为输入,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。

项目主页:
https://univg-baidu.github.io
论文地址:
https://arxiv.org/pdf/2401.09084.pdf

【8】钉钉计划4月推出AI智能体商

钉钉计划在4月份推出AI智能体商店(AI Agent Store),目标是成为国内最活跃的AI智能体孵化、分发和交易平台,三年内产生1000万个AI助理。

【9】TikTok内测AI生成歌曲功能

海外版抖音TikTok正在测试AI生成歌曲功能AI Song,由大型语言模型Bloom提供支持。用户发布视频时在文本框中写下歌词,AI Song将会生成歌曲,并且用户可以切换歌曲的流派。

【陌小北解读】 这周各家模型产品发得像下饺子似的,果然是快过年了。照这个卷法,龙卷风看了也要直呼内行,麻花看了都想直接变油条。创新驱动业务驱动,看来都不如年终奖驱动。

创业 & 投融资

【1】细红线公司辟谣:罗永浩依旧专注AR,未转型大模型行业

近日,媒体报道关于罗永浩所创立的细红线公司从AR行业转型至大模型行业的消息引发关注。对此,细红线公司发表声明,明确表示这一报道不实。公司强调,罗永浩仍然专注于AR软硬件的研发,并未转向大模型行业。此前有报道称细红线公司在AR业务的软硬件研发上放缓步伐,且进行了相关业务的裁员,猜测公司可能转向大模型行业。

【陌小北解读】 讲真刚看到这个新闻时,我害怕极了。毕竟作为一个从业者,回看罗老师之前的战绩,我不怕行业被重塑,就怕行业被罗老师颠覆。

【2】Rabbit宣布与AI搜索引擎Perplexity合作

AI硬件创业公司Rabbit在社交平台X上宣布了一项重大合作:与AI搜索引擎Perplexity联手,共同提升其AI硬件R1的自然语言搜索功能。这一合作的目的是为R1用户带来更加精准和高效的搜索体验。Rabbit的R1是一款专为高效AI应用设计的硬件产品。通过与Perplexity的技术合作,Rabbit OS将得到显著增强,尤其在处理自然语言搜索方面。

产品 & 模型

【1】智谱AI发布基座大模型GLM-4,推出GLM-4 All Tools和GLMs

智谱AI公司近日宣布推出其最新研发的AI大模型——GLM-4,标志着AI技术的一大飞跃。GLM-4在性能上比上一代模型提升了近60%,其整体评测结果已逼近目前的行业领先者GPT-4。这一新一代基座大模型的亮点在于其支持更长的上下文处理能力、更强的多模态融合能力、更快速的推理速度以及更多的并发处理能力,这些改进显著降低了推理成本。

除此之外,GLM-4的另一大创新在于其增强了智能体的能力。智谱AI推出的GLM-4 All Tools功能,可以根据用户的意图自动理解并规划复杂的指令,自动调用多种工具完成复杂任务,如文生图、代码解释器、网页浏览及Function Call等。此举意味着GLM系列模型的全面工业化,将使开发者和用户在使用GLM-4模型时更为轻松,不再需要担心复杂的提示词问。

【陌小北解读】 国内厂商的想象力真让人发愁,别说控制AI了,就连OpenAI都控制不住,甚至连抄都没能抄出风格抄出新意。建议跟隔壁马斯克老师学习讲故事的能力,也可以跟罗永浩老师学习语言的艺术。

【2】讯飞1月30日发布星火大模型V3.5

科大讯飞透露,讯飞星火认知大模型V3.5目前已经完成训练,相比V3.0,在逻辑推理、文本生成、数学答题及小样本学习能力等方面大幅提升。科大讯飞将在1月30日下午2:00举办讯飞星火认知大模型V3.5升级发布会。

【3】业界首个网络安全大模型评测平台——SecBench

腾讯朱雀实验室和腾讯安全科恩实验室,联手腾讯混元大模型、清华大学江勇/夏树涛教授团队、香港理工大学罗夏朴教授研究团队及上海人工智能实验室OpenCompass团队,共同打造了业界首个网络安全大模型评测平台——SecBench。SecBench的宗旨是解决开源大模型在网络安全应用中的安全能力评估难题,为大模型在安全领域的应用提供了重要的参考依据。

如果觉得不错,随手点个赞、评论、转发吧。我是陌小北,一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章,欢迎关注。