当前位置：首页 >> 中药养生 >> 一张图转3D数量级起飞！GitHub刚建空仓就有300+人赶来标星

一张图转3D数量级起飞！GitHub刚建空仓就有300+人赶来标星

发布时间：2024-01-13

梦晨发自凹非寺广义相对论位 | 政府部门号 QbitAI

最新“只用一张图转3D”工具雨了，高保真那种。

对比以后一众工具，而今上跨越式提升。（新工具在最后一路上）

挑出一个结果可视来看，庞加莱构件细节丰富，渲染亮度也将近1024x1024。

新工具Magic123，来自KAUST、Snap和剑桥联合小组，一作为KAUST博士生钱国成。

必需读取单个三维，不光生成高恒星质量3D三维，连有视觉吸引力的色块也一起打包生成。

甚至研究成果刚挂在arXiv上，代码还没来得及截图时，就从未有300+人赶回标星码住（顺便催更）。

从粗到精，两阶段拟议

以往2D转3D最罕见工具就是NeRF。但NeRF不光占GPU高，亮度还高于。

研究成果中会指出，即使资源效率较高于的Instant-NGP拟议在16GGPUGPU上也只能达到128x128的亮度。

为进一步提高3D内容的恒星质量，小组在NeRF便引入了第二阶段，应用于DMTet算法将亮度提高到1024x1024，并且细化NeRF得出的庞加莱构件和色块。

对于极少有一张的2D概要三维，首先应用于现成的Dense Prediction Transformer模型透过分割，再应用于可不体能训练的MiDaS提取深度图，用于后续优化。

然后进入第一步粗阶段，应用于Instant-NGP并对其透过优化，慢速侦探小说并重修十分复杂庞加莱，但不需要想像中实时，点到为止即可。

在第二步粗糙阶段，在用内存效率高的DMTet工具细化双方同意能量守恒3D模型。DMTet是一种混合了SDF体素和Mesh三维的暗示工具，生成可庞加莱的四面体三维。

并且在两个阶段中会都应用于Textural inversion来保证生成与读取一致的庞加莱椭圆形和色块。

小组将读取三维分成罕见；也（如泰迪熊熊）、不想像中罕见；也（如两个叠在一起的甜甜圈）、不罕见；也（如龙石雕像）3种。

推测极少应用于2D客体的资讯可以生成更十分复杂的3D构件，但与读取三维的一致性不高。

极少应用于3D客体的资讯能产生精准但缺少细节的庞加莱体。

小组敦促综合应用于2D和3D客体，并经过一一检验，最终找到了二者的最小值。

2D客体的资讯应用于了Stable Diffusion 1.5，3D客体的资讯应用于了耶鲁大学/丰田汽车研究所提出批评的Zero-1-to-3。

在定性比较中会，结合两种客体的资讯的Magic123工具取得了最好的效果。

在定量比较中会，评核了Magic123在NeRF4和RealFusion15数据集上的表现，与以后SOTA工具比起在所有指标上取得Top-1佳绩。

那么Magic123工具有没有局限性呢？

也有。

在研究成果最后，小组指出整个工具都构建在“假设概要三维是正视图”的为基础，读取其他取向的三维会导致生成的庞加莱物理性质较差。

比如从上方拍桌子上的食物，就不适合用这个工具了。

另外由于应用于了SDS损失，Magic123倾向于生成过度可用的色块。偏爱是在粗糙阶段，较高于亮度会可视这种问题。

这两项首页：

研究成果：

GitHub：

概要元数据：[1]_akhaliq/status/1675684794653351936

— 完了 —

广义相对论位 QbitAI · 美联社号签约

标签：