AI应用进展和演化
1-1. ControlNet作者新项目Paints-Undo爆火:仅一张图生成25秒绘画全过程!
项目名为Paints-Undo,发布不到24小时,GitHub上已揽星600+ 据GitHub主页上的介绍,Paints-Undo的命名有“其绘制过程就像是在绘画软件中多次按下撤消(Undo)按钮”之意。
根据不同配置,处理一张图大约需要5-10分钟。
生成视频时长25秒,帧率为4FPS,分辨率可能是320×512、512×320、384×448或448×384。https://www.qbitai.com/2024/07/164903.html
不用自建服务器,不用部署后台程序,点一下就能自动获得链接。 只要有链接,分享出的应用人人都可玩,无需会员,甚至不需要注册Claude账号。
对于通用大模型而言,这极大简化了应用的部署过程,只要有想法,小白用户也能设计并直接发布自己的应用了。
毕竟之前的同样大模型就是把代码写好,最多再用文字的形式教给你怎么部署,后续流程仍然存在一些门槛。
另外,别人分享的应用,也支持一键复刻到自己的Claude账号,并进行修缮甚至魔改。https://www.qbitai.com/2024/07/165390.html
1-3. NeRF新突破:用启发式引导分割去除瞬态干扰物,无需额外先验知识
自被提出以来,神经辐射场(Neural Radiance Fields, NeRF)因其在新视角合成及三维重建中的出色表现而受到极大关注。 提出了一种名为启发式引导分割(Heuristics-Guided Segmentation, HuGS)的新颖范式。通过巧妙结合手工设计的启发式算法和由提示驱动的分割模型,HuGS 可以在没有额外先验知识的情况下准确区分场景中的瞬态干扰物和静态元素。
在组合启发式算法和 SAM 的帮助下,HuGS 可以生成准确的静态掩膜,而 Mip-NeRF 360 在应用静态掩膜后消除了大量伪影,RGB 图和深度图的渲染质量有明显提升。
https://www.jiqizhixin.com/articles/2024-07-10
论文方法可以在有效消除伪影的同时更好地保留静态细节
1-4. 全球首个半导体设计开源大模型SemiKong问世:重塑价值5000亿美元的芯片制造流程
Semicon West 2024大会上,Aitomatic发布了首个SemiKong半导体行业设计的新模型,将革新半导体工艺和制造技术。SemiKong是由Aitomatic与FPT Software合作开发,在处理行业特定任务时,表现优于通用大模型,如GPT和 Llama 3。 SemiKong的训练过程主要分为3个主要阶段:预训练领域知识——自我微调(指令数据集)——合并和量化。在行业相关的基准上,SemiKong优于许多通用LLM。而且,为那些打造适合自身的专有模型的芯片公司,提供了一个有价值的基座。
https://www.163.com/dy/article/J6O5LNFB0511ABV6.html
在成都高新区,西门子建立了其在中国的首座数字化工厂。走进车间全自动化生产线上,几乎看不到多少操作工。 这座「灯塔工厂」已经部署了近 100 个 AI 项目,应用在了质量检测、垃圾处理等多个场景中。
产线上配备了自动光学检测( AOI )设备检测电路板焊接点质量,但严格标准设置带来大量「假阳性」,需要大量人工复检。在 AOI 设备之后添加一个 AI 系统进行二次检查,工厂成功过滤掉了 90% 以上「质量有问题」图片,大大降低了工人的工作量。
现在,AI 分拣机器人的危废品识别率达到 100% ,制成品等其他物料识别率达 94% ,综合识别率超过 96% ,已经完全不需要人工处理垃圾。
https://www.jiqizhixin.com/articles/2024-07-10-15
1-6. AI已成银泰百货新质生产力:驱动专柜销售增长15%
去年以来,银泰百货在此前数字化基建和新商场商业操作系统(MOS系统)基础上,引入大模型,在商场专柜全面部署了AI机器人,AI带来的销售占同期整体联营销售额的比重逐步增加,最高达到了15%。 “去年我们的科研项目是‘畅销品不缺货’,把缺货率从11%降到了1.7%。今年的项目是通过提升周转率实现‘柜上都是畅销品’,”陈晓东说。数据显示,在技术加持下,品牌零动销商品在银泰百货通过动态定价能获得28%的销售增加。
会上,银泰商业正式对外发布了自研的自然语言柜内助手「Chat@韬略GPT」,除了帮助品牌专柜进行选品、补货、投放、引流、社群等场景的日常经营外,今年还新增上线“导购用工”场景。https://mo.mbd.baidu.com/r/1mfLzq0YZAQ?f=cp&rs=3048040240&ruk=1PJuPlec4ZGlYTqNPEAXQw&u=4c96b1abb19161ad&sid_for_share=80217_3
1-7. 纷享AI正式发布:AI+CRM赋能企业将业务场景跑在AI上
纷享销客作为国产CRM中连续四年保持近40%增长的*品牌,一直在探索AI+CRM领域的数字化变革。 7月10日,纷享销客AI产品正式上线。与通用大模型不同,纷享AI是在合规之下,开放性的接入各种大模型平台,并结合纷享销客在营销服领域积累的海量数据和场景来构建。
作为AI大模型与CRM这一垂直领域的结合产品,纷享AI具备与CRM深度融合的场景化AI能力和行业化AI模型,并重磅推出AI PaaS平台,以满足不同场景、不同行业客户的个性化调优以及AI应用定制需求
https://m.chinabyte.com/telecom/45/185545.shtml?sid_for_share=80217_3
1-8. AI+游戏:大模型让角色有了记忆和情绪
巨人网络从2023年七八月开始准备,决定开发大模型到组建团队,再到项目初步成型,用了大约半年的时间,在2024年2月完成大模型GiantGPT的备案。 加入大模型后,主要的亮点在于游戏的角色演绎、情景推理还有Agent(智能体)的长期记忆。首先,在角色扮演这部分,大模型让角色有了不同的说话风格,让游戏角色实现拟人化,达到千人千面NPC的效果。比如张飞的形象是粗犷的,那么特定的说话风格上可能会比较豪放。此外,大模型让游戏人物有了情绪能力,比如重复用多次问AI NPC同一个问题,NPC也会烦,更接近真实的人。
https://my.mbd.baidu.com/r/1mfMwqZg2sw?f=cp&rs=3423500793&ruk=1PJuPlec4ZGlYTqNPEAXQw&u=dd8e1f1ade60ede1&sid_for_share=80217_3
AI大模型算法和峰会
2-1. Deep Mind AlphaZero式树搜索:用来增强大语言模型推理与训练
来自伦敦大学学院,上海交通大学,卡耐基梅隆大学的合作团队将 AlphaZero 方法精髓与大语言模型的文本生成结合,提出了大语言模型树搜索训练增强框架 TSLLM。通过将这一任务建模为多步决策问题,引入强化学习中价值函数学习的概念,以训练的方式微调一个价值函数以提供更为鲁棒可靠的搜索中间价值评估。 在实验中,团队在数学推理/规划,逻辑推理任务,价值对齐的文本生成以及文本化的决策推理任务上进行了丰富的实验与对比,在搜索深度上最大达到了 64,显著深于之前的算法。
实验结果也表明基于学习的价值函数无论是在 GSM8k还是 Game24 问题上都优于 ChatGPT
https://www.jiqizhixin.com/articles/2024-07-10-5
2-2. LeCun新作:神经网络在实践中的灵活性到底有多大,拟合训练数据
探讨了神经网络在实际应用中的灵活性。研究发现,尽管理论上神经网络能够拟合与其参数数量相当的样本集,实际中标准优化器通常找到的局部最小值仅能拟合远少于参数数量的训练样本。 卷积神经网络(CNN)在随机标记数据上比多层感知器(MLP)和视觉变换器(ViT)更参数高效。
此外,随机梯度下降(SGD)相比全批量梯度下降能拟合更多训练样本,而ReLU激活函数有助于拟合更多数据。
研究还发现,正确标记样本与错误标记样本之间的拟合能力差异可以预测模型的泛化能力。这些发现挑战了传统关于神经网络灵活性和泛化的理论,并指出了提高神经网络参数效率的新方向。
https://m.163.com/dy/article/J6O5M6VM0511ABV6.html?spss=adap_pc&sid_for_share=80217_3
在表格数据集上训练的网络表现出更高的容量;而在图像分类数据集中,测试精度和容量之间存在很强的相关性。
论文名称:Just How Flexible are Neural Networks in Practice?
论文地址:https://arxiv.org/pdf/2406.11463
AI基础设施方面(含硬件、数据)
3-1. 语言的神经激活被定位到细胞级:迄今为止,分辨率最高的编码单词含义的神经元
发表在《自然》杂志上的研究论文,通过跟踪神经元在自然语音处理过程中的活动,该研究发现了单个神经元对语义信息的精细皮层表征。 该研究创建了迄今为止分辨率最高的神经元图(map),这些神经元负责编码各种单词的含义。
简单来说,当参与者聆听语义不同的句子和故事时,该研究记录左侧语言主导的前额叶皮层的单细胞活动。结果表明,在个体之间,大脑使用相同的标准类别来对单词进行分类 —— 帮助我们将声音转化为意义。
这些神经元选择性地响应特定的单词含义,并可靠地区分单词和非单词。此外,它们的活动不是将单词作为固定的记忆表征来响应,而是高度动态的,根据其特定的句子上下文反映单词的含义,并且独立于其语音形式。https://ms.mbd.baidu.com/r/1mfJ3fHd1yo?f=cp&rs=830451138&ruk=1PJuPlec4ZGlYTqNPEAXQw&u=b13a05343b013e1a&sid_for_share=80217_3
自然语言处理过程中,单个神经元对语义的选择性
论文名称:Semantic encoding during language comprehension at single-cell resolution
论文地址:https://www.nature.com/articles/s41586-024-07643-2
AI人才、融资动态
4-1. OpenAI+AI医疗健康巨头Thrive Global:正式宣布了Thrive AI Health公司
Thrive AI Health的目标是打造一个个性化“AI健康教练”,以手机App形式呈现。这家公司计划可以用一句话总结:用AI健康教练改善慢病管理。 目前公司CEO是谷歌前健康和可穿戴设备负责人德卡洛斯·洛夫(DeCarlos Love),OpenAI创业基金和Thrive Global是主要投资方。
X平台投资自媒体Startups IO发文称,Thrive AI Health从OpenAI创业基金筹集了1500万美元,目前Thrive AI Health官方并未公布具体的融资金额。
https://m.thepaper.cn/newsDetail_forward_28011163?sid_for_share=80217_3
4-2. 匹兹堡Skild AI融资成功:人工智能初创公司Skild AI在A轮中募得3亿美元资金,公司估值达到15亿美元
本轮融资由光速创投、Coatue、软银集团和杰夫-贝索斯的贝索斯探险公司等多家顶级风投公司领投。此外,Felicis Ventures、红杉、Menlo Ventures、General Catalyst、CRV、亚马逊、SV Angel 和卡内基梅隆大学也参与了投资。 Skild AI 正在构建一个 共享的通用大脑,能够装备各种机器人,让它们在各种场景中执行多种任务,如操纵物体、运动和导航。该公司表示,它的人工智能可以与任何类型的机器人集成,包括具有先进计算机视觉技能的人形机器人,可以在家庭和工业环境中灵巧地操纵物体,以及更灵活的四足机器人,可以在任何物理环境中导航。
https://c.m.163.com/news/a/J6NQPVO905566WT8.html?spss=newsapp&spsnuid=&spsdevid=87CF572B-C6D7-4524-B128-586A9651C58D&spsvid=&spsshare=default&spsts=1720584345597&spstoken=zOw%2F5iFHW8NFhXRANuV7rhq8ryPxamM6haMAoE7R3tNnZq9QvycdMQnPQWCCS9GW
4-3. 7月8-12日 联想总部东区举办:以“硅基觉醒 AI启未来”为主题的联想创投2024 CVC创投周
联想创投与超50家被投企业联手打造AI基础设施、AI赋能知识劳动者、AI重塑硬件惠及体力劳动者、Al+交通户外四大主题展区,全面展现联想创投投资AI超过10年的科技成果,以及被投企业的科技创新和生态合作进展。 联想创投积极推动被投企业和联想集团的生态协同与双向赋能,已构建了多赢的联动生态。目前,在250多家被投企业中,已有半数与联想集团形成了紧密的生态合作关系,被投企业已成为联想科技生态圈的重要力量之一
https://www.qbitai.com/2024/07/164885.html