天朝武侠是掉到崖下得到高人传授神功,漫威里是被蜘蛛咬了一口发生变异,训练出来的东西很有可能没法往现有的游戏架构里边套。
楚垣夕一想也是,欧美小说无论通俗还是正统,就很少有类似的,人家那么多年了就不流行这种意淫式的展开。
很多ai语意训练项目直接拉网页就能训练,因为输出的成果是不需要特定使用环境的,但游戏不一样,游戏得有感觉,随便训练出来的东西没感觉。《乱世出山》手游的立项就是建立在这种网文感觉上的,所以才能让ai剧情和游戏内容无缝衔接,换一套训练素材的效果,和瞎捷豹翻译的效果到底哪个更糟糕还真不一定。
所以搞定实时翻译的ai才是最直接的办法,于是问题又回到薛明那。
然后薛明给了一个针对西方市场的粗暴的解决方案,那就是,不要什么ai实时翻译,把他用来训练ai的几十万本网络小说,统统都翻成英文,然后用英文版本训练。
这相当于把一个问题拆成两个。其中后一个问题不需要什么新的工作量,而前一个问题,因为是定向解决到英语区国家推广的问题,不用考虑翻译成多国语言,也不用考虑普适性,只需要解决针对《乱世出山》的单一问题,于是变得非常直接。
这就变成了最简单的机翻小说的问题了,一本几百万字,几十万本,无非就是一万亿字的体量,只要有优秀的翻译算法和配套算力用于翻小说,不是问题!
问题是没有合适的算法和算力。
理解自然语意比较常用的模型里,百度的ernie适合汉语任务,而谷歌的bert20虽然汉语英文都可以,但是主要创新点都在预训练上。对于长句语意的理解还行,但对翻译既不友好也不那么准确,特别是完形填空能力比较一般,连百度都不如。
而薛明要的是翻译小说,比翻译普通文本的要求高很多。bert20的翻译实力翻个普通的文本都勉强,翻小说根本没法用。
所以还是oenai的gt-2最合适,哪怕是阉割过的gt-2。
于是问题转了一个超大的圈子又回到最开始训练gt-2模型的问题了,谷歌的tu云资源最合适,退而求其次的选项是国内的一些私有云。
这个问题必须解决,否则如果还是原先的翻译水平,经过岛国和宇宙两个区的实践,《乱世出山》手游海外运营的天花板实在是太低了,强行降低一半多的高度,简直不能忍。
所以今天楚垣夕必须来找谷歌要机会,国内的私有云实在是一言难尽,可能必须向中曙光或者江南计算申请算力了,麻烦地令让人头秃。
那么,谷歌会如人所愿么?
楚垣夕带着周敏溪转悠出来,把这个麻筋给周敏溪一说,周敏溪当时就蹦出一句:“那可是谷歌啊!”