谷歌翻译和百度翻译哪个好 谷歌翻译和有道翻译

  2020.4.4修改:

  我都要快便乘猪场吹了,有道翻译是真的强,强推的PDF翻译功能。顶会论文一般都是10页,前4页方法,4-8页试验,9-10页总结+参考。免费pdf翻译一次4页,正好可以用pdf编辑软件给论文拆开,还不影响阅读连贯性。我现在abstract,introduce都是直接丢进有道pdf翻译看,等到了method和model部分,开始列公式了,再去看原文,效率极高。

  2020.4.13添加:最近有些人私信我问为什么有道翻译好使,那就大概说一下原理。

  决定一个翻译软件精度的因素有两个,一个是翻译模型的好坏,一个是语料的丰富程度。模型是计算机领域的称呼,通俗的讲就是方法,而语料库则是训练模型的数据。类比一下,模型就是做数学题时的解题技巧,技巧越高超做题能力自然越强。e799bee5baa6e997aee7ad94e4b893e5b19e31333433626464而语料库就是习题集,空有技巧从不练习,也不可能培养出解题高手。

  先说模型,现在算法理论的发展其实是远超实际应用的,而且优秀的模型大多公开发表,所以在顶尖技术上倒是不太存在技术垄断,大多还是数据垄断(语料库)。语言翻译多是使用编解码架构的时序模型,这句话有两个关键词,一个是编解码,一个是时序。编解码的意思就是模型会先将原始输入的句子编码成一串数字,再解码成目标语言。各国语言的遣词造句、语法多种多样,所以世上唯有一种东西在表意上是统一的,就是数字。从原始语言编码成数字的过程,其实就是将原始语句的含义,用一串数字表示出来。而解码过程,就是将这一串包含实际意义数字,解码为目标语言。这样来说,一个理论上完美的模型,对于任何不同语言,但相同含义的句子,都应该生成完全一样的编码,而一串相同的编码,翻译成各国语言后应该体现出完全相同的含义。时序则是指编解码过程中遵循时序原则,就是考虑时间顺序。放在翻译中,就是考虑单词或字的出现时间。对于时序模型,输入“好吃”和“吃好”应该对应不同的编码结果,而对于非时序模型,则对应相同的结果。

  再说语料,语料库库要丰富,丰富不单止要多,而且要有质量。就像做数学题不仅要多做,还要做好题,1+1=2做的再多也提高不了考试分数。在语料库这方面,谷歌这个外来的和尚肯定是比不过本土的百度网易的。同样的模型为什么使用结果也有差异?为什么北京话粤语可以,山东话就不行?这就是语料库的问题。如果语料库有“昨天晚饭真好吃”和“昨儿晚饭真好吃”两句话,并且被标注为了相同的含义,那模型就应该理解“昨天”和“昨儿”虽然不是一个词,但是意思相近。上面说了模型的理论其实远超实际应用,优秀的模型有很多,还是开源的,所以实际决定各大著名翻译软件的还是语料库的好坏。在这个大数据时代,数据才是最珍贵的资源。比如谷歌百度的搜索历史数据,淘宝京东的商品数据、购买数据,豆瓣的评论数据,这些才是可遇而不可求的东西。没准网易翻译的语料就是从网易音乐的评论、歌词,网易游戏的文本语音、搜索记录等等取到收集来的。作为一个本地公司,这种收集力必然比谷歌这种外国公司强上不少。