首页 > 武侠修真 > 高二分科,我选校花也选亿万身家 > 第620章 深度学习变天了

第620章 深度学习变天了(2/2)

目录

请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能,避免出现内容无法显示或者段落错乱。

他又花了两周时间反覆验证,排除过擬合、数据泄漏等一切干扰因素。

最后把层数推到了五十。

5.08%。

和人类標註员打了个平手。甚至略微超过。

任少卿睁开眼睛,盯著天花板看了很久。值班间的日光灯管有一根坏了,一明一暗地闪著。

“少卿哥,这个结果……”

陈立秋把擦了无数遍的眼镜重新戴好,声音压得很低,

“能发顶会吧”

“不止能发。”

郑宇航已经从最初的激动中回过神来了,他盯著屏幕上的损失曲线,

“这东西要是公开出去,整个领域都得重新洗牌。以前大家默认深层网络没法训练,所有人都在十几二十层的范围里卷。现在这个假设直接被推翻了。”

任少卿没说话。

他站起来,走到机房那面闪烁的绿色光墙前面,双手插在衝锋衣口袋里。

兴奋吗当然兴奋。

但兴奋过后,一种更复杂的情绪开始往上涌。

他想起去年在西安交大走廊里,那个黄毛少年对他说的话。

“你的模型在做大量无效计算。”

“让模型只用它需要用的那部分脑子去思考。”

当时他以为那只是一个外行的模糊直觉。

但现在他回过头来看,那个十八岁的少年说的每一句话,都精准地指向了这个领域未来五到十年的核心命题。

残差连接解决了深层网络的训练问题。

但那个少年想要的,显然不止於此。

任少卿盯著那面光墙,脑子里像打开了一扇被堵住很久的门。

五十层的残差网络证明了一件事:网络可以做得很深,深度不再是瓶颈。

那下一个瓶颈是什么

他几乎是本能地想到了那个词。

宽度。

或者更准確地说,视野。

卷积网络的每一层只能看到一个局部窗口。

三乘三,五乘五,最大也就七乘七。哪怕你把网络堆到一百层,每一层看到的依然是一小块局部区域。

它通过层层叠加来扩大感受野,但这种扩大是间接的,是逐层递推的,不是一步到位的。

如果数据不是图片呢

如果是一段文字,一个句子,一篇文章

文字里的语义关联可以跨越整个句子。

第一个字和最后一个字之间可能存在关键的依赖关係。卷积核看不到那么远。

循环神经网络可以看到,但它是串行的,一个字一个字往后递,速度慢得要命,而且同样存在梯度消失。

只不过是时间维度上的梯度消失。

那如果……

任少卿摇了摇头,把这个念头暂时压下去。

他现在面前摆著一堆更紧迫的问题。

论文要不要写投哪个会议实验还需要补哪些对照组

一百层的网络还没跑,一百五十层呢

目標检测任务上的迁移效果怎么样

另外,残差连接这个结构目前只在图像分类上验证过。

要推广到其他任务、其他数据类型,工作量巨大。

他手上就两个师弟,根本忙不过来。

这些问题每一个都很具体,每一个都需要人手、时间和资源。

“少卿哥。”

郑宇航不知道什么时候走到他旁边来了,手里端著两杯速溶咖啡,递了一杯过来,

“你是不是该跟上面匯报一下了”

任少卿接过咖啡,没喝。

“上面”。在这个基地里,“上面”这个词只指向一个人。

他入职快半年了,跟那个黄毛少年只见过一次面。

日常工作对接的是林溪和徐静。林溪管钱管人,徐静管硬体和基建。

两个人都很专业,给他的自由度也大,基本上他要什么给什么,从来不问他每天具体在做什么。

但这次不一样。

这个发现太大了。

大到他自己都说不清它的边界在哪里。

“我给林总发了飞书消息。”

陈立秋从值班间探出头来,

“但我觉得这种事,光发消息说不清楚。”

任少卿看了一眼窗外。天还黑著,大渡河的水声闷闷地从山下传上来。

他沉默了很久。

然后他把那杯没喝的速溶咖啡放在窗台上,转身走回值班间,拿起手机。

不是发消息。是查机票。

雅安到北京,最早的航班在锦城双流机场起飞,早上七点二十。从基地开车到锦城大概要两个半小时,现在出发正好来得及。

他买完票,把手机揣回兜里。

“收拾一下数据和实验日誌,打包拷到加密u盘里。”

他看著两个师弟,语气平静,

“我去北京,当面匯报。”

郑宇航愣了一下。

“现在凌晨三点”

“现在。”

任少卿拎起那个跟了他快三年的黑色双肩包,把笔记本电脑和充电器塞进去,拉上拉链。

目录
返回顶部