AIGC行业周报 2024有分析称英伟达要花68亿美元买芯片；ShareGPT4Video系列发布；马斯克：我没投资任何永生技术活太久会对社会产生负面影响

发布时间：2024-07-01 18:09:04 来源：江南官方网站下载作者：江南app官方网站

　　开栏语：《AIGC行业周报》梳理AIGC行业一周内发生的重要动态，产品发布和业内大咖的最新观点。

　　SSI致力于实现“核能级别”的安全超级智能，不受短期商业压力影响，专注于安全性和AI能力的提升。

　　拥有强大的资金、算力和人才支持，包括与Eric Schmidt的合作和Daniel Gross的天使投资经验，以及在硅谷和以色列特拉维夫的人才网络。

　　预计2024年全球HBM芯片总产能约为5600万颗，英伟达的需求量预计为2700万颗，基于单颗250美元的成本测算，意味着英伟达全年采购HBM芯片的费用可以预测到68亿美元，远超此前媒体披露的13亿美元预算。

　　由中国科学技术大学、北京大学等研究人员推出的ShareGPT4Video系列，包含4万条高质量视频-字幕数据，旨在提升视频理解和生成能力。

　　通过差分滑窗视频描述策略，创建了能够为任意视频生成详细描述的模型，有助于提高视频语言模型的性能。

　　数据集在多个长视频理解基准上带来性能增益，同时在视频生成任务中，使用该数据集训练的模型展现出更好的镜头和语义控制能力。

　　AI视频制作公司Runway推出了新一代视频生成模型Gen-3 Alpha，其在细节、一致性和动作表现上进行了显著改进，达到电影级画质。

　　Gen-3 Alpha支持文本到视频、图像到视频等多种功能，被认为将挑战现有的AI视频生成技术，包括Sora。

　　Runway计划提供定制版本，并宣布了新的安全功能，Gen-3 Alpha即将向付费订阅者开放。

　　潞晨团队Open-Sora项目在720p高清视频质量和生成时长上取得显著进展，支持一键生成16秒的任意风格高质量视频，并且宣布全部开源。

　　引入视频压缩网络和优化的扩散模型算法，发布了1.1B的扩散生成模型，实现了成本与生成质量的平衡，提供了训练和推理的高效解决方案。

　　DeepMind开发了V2A技术，将视频像素与自然语言文本相结合，生成与视频动作同步的逼线A技术能够为无声视频添加相应的背景声音或对话，提升视频的真实感和用户体验，同时支持对生成音效的创意控制。

　　V2A基于扩散模型，通过编码视频输入、迭代改进音频并解码生成波形实现同步生成，但仍在改进中，如提高音频质量和唇语同步的准确性。

　　OpenAI的ChatGPT提供多种订阅计划，满足从个人到企业的各类需求，包括免费版、ChatGPT Plus、团队版、企业版、教育版本和非营利组织版本。

　　免费版用户可访问GPT-4o模型和GPT Store，但有日容量限制；ChatGPT Plus提供更高容量和高级数据分析功能；团队版和企业版提供协作工具、定制应用程序和增强的管理控制。

　　ChatGPT Edu专为教育机构设计，提供额外的SCIM支持；非营利组织可获得ChatGPT团队和企业版的折扣价格。

　　解决了传统2D-to-3D升维技术中的多个问题，如多头多面、空腔、遮挡等，满足商业应用需求。

　　推出面向C端用户产品，可将图片/文字转换为二次元3D人物形象，以及面向创作者的3D内容创作平台，大幅简化3D模型获取流程。

　　英伟达发布了一个包含3400亿参数的开源模型家族，包括基础模型、指令模型和奖励模型，采用NVIDIA Open Model License Agreement，允许分布、修改和使用模型及其输出。

　　模型训练使用了超过98%的合成数据，展示了在生成合成数据方面的能力，有助于训练更小的语言模型，同时开源了合成数据生成流程。

　　Nemotron-4 340B性能在多个基准测试中与GPT-4o等专有模型竞争，支持多种语言和编程语言，对商用友好的许可协议，可能对医疗、金融、制造业和零售业等行业产生重大影响。

　　：如果我们使用了您的图片，请作者与本站联系索取稿酬。如您不希望作品出现在本站，可联系我们要求撤下您的作品。

解决方案