崩溃的情况
进入游戏一会儿,神马都不要做,双手离开手机,盯着屏幕看吧,游戏会定时从服务器那儿读取一些数据,时间一长,闪退了。尼玛问题是神马呢?完全没有头绪,不过大体猜测是因为网络请求导致的,那么好,先排查服务器返回结果是否有问题,最终确认每次客户端崩溃的时候,服务器都成功的返回了格式正确的数据,没有任何异常。那么可以确定问题是出在客户端部分了。 先检查代码,确认逻辑上没有任何问题之后,也倍感无力啊,问题依然在重现。肿么办呢?
确定具体原因
那么好吧,打一个测试版本再来看,然后再等着崩溃,查看崩溃日志吧,最终看到的崩溃日志中,崩溃线程输出信息如下:
Thread 27 Crashed:
0 libsystem_kernel.dylib 0x38e671fc __pthread_kill + 8
1 libsystem_pthread.dylib 0x38ecea4e pthread_kill + 54
2 libsystem_c.dylib 0x38e18028 abort + 72
3 gowonline 0x0178a0c0 mono_handle_native_sigsegv + 312
4 gowonline 0x01779a30 mono_sigsegv_signal_handler + 256
5 libsystem_platform.dylib 0x38ec9720 _sigtramp + 40
6 gowonline 0x00114f48 m_RestSharp_Http_ExecuteCallback_RestSharp_HttpResponse_System_Action_1_RestSharp_HttpResponse + 52
7 gowonline 0x001142b4 m_RestSharp_Http_RequestStreamCallback_System_IAsyncResult_System_Action_1_RestSharp_HttpResponse + 900
8 gowonline 0x00329c60 m_2be7 + 48
9 gowonline 0x00a39d08 m_System_Net_WebAsyncResult_DoCallback + 76
10 gowonline 0x00a29628 m_System_Net_HttpWebRequest_SetWriteStream_System_Net_WebConnectionStream + 536
11 gowonline 0x00a46f84 m_System_Net_WebConnection_InitConnection_object + 708
12 gowonline 0x0101ffac m_wrapper_runtime_invoke_object_runtime_invoke_dynamic_intptr_intptr_intptr_intptr + 200
13 gowonline 0x017792d4 mono_jit_runtime_invoke + 2152
14 gowonline 0x0181b324 mono_runtime_invoke + 132
15 gowonline 0x01820118 mono_runtime_invoke_array + 1448
16 gowonline 0x01820510 mono_message_invoke + 444
17 gowonline 0x018444a8 mono_async_invoke + 124
18 gowonline 0x01844174 async_invoke_thread + 312
19 gowonline 0x0184c580 start_wrapper + 496
20 gowonline 0x018695b4 thread_start_routine + 284
21 gowonline 0x01885750 GC_start_routine + 92
22 libsystem_pthread.dylib 0x38ecdc5a _pthread_body + 138
23 libsystem_pthread.dylib 0x38ecdbca _pthread_start + 98
好的,那么已经确定是在我们使用的一个第三方类库RestSharp中出现的问题,问题是出现在一个Action回调的地方。那么这种问题为什么会出现呢,那我们就得好好得来找找原因了。
关于如何查看iOS崩溃日志,让崩溃日志更加友好,我们可以参考这篇文章,iOS应用崩溃日志揭秘,主要就是要确保你的设备上跑着的这个App的编译和打包的二进制文件要在你用于查看日志的Mac上,这样的话,当我们查看崩溃日志的时候,Xcode会自动将那些无法阅读的函数调用的堆栈信息转化成可读性较强的日志信息,帮助还是很大的。
那么这个时候我们可以通过将设备连接到Mac上,直接通过Xcode将程序编译并运行,多尝试着玩一段时间,当程序再次出现崩溃的时候,我们就能看到更清楚的函数调用关系了,同时也能看到更多的日志提示。
最终能确定每次崩溃的函数就是这个mono_convert_imt_slot_to_vtable_slot,这个看上去就是Mono Runtime在将接口声明的方法指针指向实际实现这个接口的对方的方法,我们可以找到mono_convert_imt_slot_to_vtable_slot这个方法所在的文件查看一下,这个方法就在Mono项目的目录mono/mini/mini-trampolines.c中可以找到。
在Xcode中崩溃时,会输出类似” SIGABRT (ERROR:mini-trampolines.c:183:mono_convert_imt_slot_to_vtable_slot: code should not be reached) “的日志,看着很像是原本是要执行某个方法,但是不知道因为什么原因这个方法就无法访问到了,好奇葩啊。
解决方案
现在虽然已经知道了问题出现的地方,但是貌似完全看不明白的样子,尼玛trampoline都还是第一次听说耶,那么先请教一个我大Google吧,我们总是相信自己不是那第一个吃螃蟹的人,所以我们找到了一位大神的解决方案就在这里,大神的文章写得非常言简意赅,大体意思就是如果你在做Unity3D开发时,特别是在针对iOS和Android平台的时候,你很有可能会碰到比较杯具的就是程序会莫名其妙地闪退哦,不过不要着急,这个通常就是因为你的程序编译的时候给trampoline分配的空间太小,而你的程序中又大量使用了泛型、泛型方法调用和接口实现导致的。然后给出了具体的解决方法,那就是在Unity3D的编译选项Player Setting中有一个AOT Compilation Options条目,在这个选项条目中加上以下编译参数就好了
nrgctx-trampolines=8192,nimt-trampolines=8192,ntrampolines=4096
然后再重新一下,多多测试吧,骚年。关于这三个参数的意思呢,大神也给出了解释,分别如下:
- nrgctx-trampolines=8192 这是留给递归泛型使用的空间,默认是1024
- nimt-trampolines=8192 这是留给接口使用的空间,默认是128
- ntrampolines=4096 这是留给泛型方法调用使用的空间,默认是1024
Mono Runtime AOT机制剖析
虽然问题貌似已经得到解决了,而且我们貌似也搞清楚了具体原因就是因为默认Mono Runtime在AOT编译的时候给的trampoline配置太小,不适合我们这种设计优良,大量使用interface,设计绝对遵照OO思想的稍大一些的项目呢。那么我们以后是不是在做Unity3D开发的时候就尽量少用接口呢?是不是我们就尽量少用泛型和泛型方法呢?
既然这么感兴趣,想问个究竟,那么我们就来好好看看这个AOT到底是个神马东西吧,尼玛为什么就这么复杂,这么隐蔽,这么折腾人,《铁血战神》在App Store上线都5个月了有木有,尼玛这个问题碰到也不是一次两次了有木有,作为程序猿的我们被玩家吐槽了很多次,我们的客服XDJM们为我们背了多少黑锅啊,我勒个去啊。
首先,还是先搞定这个trampoline吧,毕竟问题的根源是在它身上的,那么我们就好好来看看这是个神马东西。我们找到Mono Runtime的官方文档中关于trampoline的描述来看看吧。
Trampolines are small, hand-written pieces of assembly code used to perform various tasks in the mono runtime. They are generated at runtime using the native code generation macros used by the JIT. They usually have a corresponding C function they can fall back to if they need to perform a more complicated task. They can be viewed as ways to pass control from JITted code back to the runtime.
翻译一下吧:
Trampoline是一些手写的非常短小的用来在mono运行时中执行很多操作的组件代码。主要是通过JIT使用到的本地代码宏在运行时动态生成的。它们通常都有与之相对应的C方法,在某些较为复杂的场景中,当trampoline无法胜任时,mono运行时就会将这些复杂的操作交回给这些对应的C方法来执行。这也可以看作是将JIT代码的执行权交回给runtime的一种方式。
好吧,貌似还没有太明白,那么这个Trampoline为什么会导致出现闪退的问题的,这看起来明显是为了提高mono runtime在执行C#代码时候的效率啊。
那么我们再来看看官方文档关于JIT Trampolines和AOT Trampolines的介绍吧,杯具的IMT Trampolines介绍还在//TODO状态中。
JIT Trampolines These trampolines are used to JIT compile a method the first time it is called. When the JIT compiles a call instruction, it doesn’t compile the called method right away. Instead, it creates a JIT trampoline, and emits a call instruction referencing the trampoline. When the trampoline is called, it calls mono_magic_trampoline () which compiles the target method, and returns the address of the compiled code to the trampoline which branches to it. This process is somewhat slow, so mono_magic_trampoline () tries to patch the calling JITted code so it calls the compiled code instead of the trampoline from now on. This is done by mono_arch_patch_callsite () in tramp-.c.
好吧,再翻译一下吧。
JIT Trampolines 这些Trampoline主要是JIT在首次调用某个方法的时候编译方法用的。当JIT在编译一个方法调用指令时,它并不会立刻就编译这个被调用到的方法。实际上,它会先创建一个JIT Trampoline,同时创建一个指向这个trampoline的调用指令。当这个JIT Trampoline在调用到的时候,它会再调用mono_magic_trampoline()方法来编译这个trampoline实际指向的目标方法,然后将编译后的方法的指针地址返回给这个指向它的trampoline。这个过程呢稍微有点慢,所以呢,mono_magic_trampoline()方法会优化调用JIT代码的过程,它会先尝试调用已经通过JIT编译过的方法而不是立即通过trampoline直接进行调用。这些都是通过在tramp-.c文件中的mono_patch_callsiete()方法来完成的。
这就是JIT Trampolines的机制,接下来我们看看AOT Trampolines又是怎么一回事呢。
AOT Trampolines
These are similar to the JIT trampolines but instead of receiving a MonoMethod to compile, they receive an image+token pair. If the method identified by this pair is also AOT compiled, the address of its compiled code can be obtained without loading the metadata for the method.
再翻译一下。
AOT Trampolines AOT Trampolines和JIT Trampolines非常相似,但是AOT Trampolines接受的编译参数不是一个Mono方法而是一个image+token对。如果传入的用于编译的image+token对所指向的方法已经经过AOT编译过了,那么再次编译这个image+token对时,就会直接返回这个已编译方法的指针地址而不需要再次加载这个方法的元数据进行再次编译了。
好吧,看了这么多关于Trampoline相关的内容,貌似只是了解到了非常有限的内容,那就依然是Trampolines存在的价值就是为了减少C#代码在mono runtime中运行时的性能损耗,提高C#代码的执行效率。
还有那个没有出场的IMT Trampolines应该也就是用于优化接口调用效率的小『蹦床』吧。
那么我们在开发Unity3D游戏的时候通常都会发布到iOS设备和Android设备上,而Unity3D在iOS和Android设备上的发布都选择了使用AOT编译机制来实现。那么显然我们碰到的Trampolines问题都是跟AOT Trampolines有关,那么AOT又是神马呢?
AOT就是区别于JIT(Just In Time)的另一个编译机制,全称是Ahead Of Time,就是预先编译好,而不是在代码执行到了某个方法再进行编译,这样的话会有一些好处。
通过查看Mono官方AOT介绍文档,使用AOT编译的有点有以下优点: 1. 加快程序启动速度 2. 更强的内存共享机制 3. 潜在的性能提升
当然也会有一些限制,例如支持平台的有限,支持AOT的Mono版本有限等等,具体信息可以参考Mono官方AOT介绍文档。
那么回到我们最开始的问题,为什么我们的游戏就会出现崩溃呢?好吧,现在一点点回顾吧。
我们出现的问题是偶尔会出现闪退,根据崩溃日志我们能定位到是mono_convert_imt_slot_to_vtable_slot这个方法导致的,然后我们再通过Xcode跟踪到了是trampoline无法被访问到的问题。
那么这么高端大气上档次的问题是肿么出现的呢?貌似Mono还算是个不错的产品啊,还是很活跃的啊,也有专门的公司Xamarin在支撑着,怎么就会出现这种问提呢?
好吧,程序都是人写的,有问题也是很正常的。上面的分析已经很清楚了,大体的原因就是因为Mono在iOS/Android等移动设备上使用了AOT这种机制,为什么选择这种机制?原因非常简单,那就是可以针对特定平台编译成在平台优化的字节码,在资源比较紧缺的移动平台上还是有着明显优势的。而使用AOT编译就需要为Trampolines这些小东西留足足够的空间,当然这个肯定是硬编码的某个常数啦,在整个程序加载成功运行之后,该常数就成为了Trampolines运行时的配置。AOT默认编译时给Trampolines的参数有点低:
nrgctx-trampolines 默认为1024
nimt-trampolines 默认为128
ntrampolines 默认为1024
这对于小一些的项目可能是够用的,因为整体项目的结构不会太复杂,使用到的接口、泛型、递归相对也不会太多,但是对于一个稍大一些的项目来说,特别是采用了某些设计良好的第三方库的项目来说,这就比较纠结了。
其实我们在项目中就使用了两个第三方的库,一个是CodeTitan.JSon库,一个是RestSharp,分别用于JSON解析和HTTP请求处理,可是这两个库实在是设计得太好了,各种使用接口,各种抽象,没个两三天我都没法说完全理解了整个库的结构。
就是因为这些设计良好,完全遵循OOP原则,高度抽象的类库将Mono默认的Trampolines的配置耗尽了,所以捏,我们就把这个编译选项开大就好了,解决方案就是上面咱们提到的咯。
本来不想评论的。
看到你分析问题这么细致,这么连贯。忍不住要表扬你。
希望能持续看到你这样的文章。
写的很赞,不过 Assembly Code 应该翻译成汇编码或者机器码比较合适
神贴,多谢此贴解决了我们的问题!!!
请问一下,怎么找到崩溃的日志呢
解决了一大难题啊。非常感谢!!