Balita - OpenAI Point E: Paghimo usa ka 3D point cloud gikan sa komplikado nga mga waveform sa mga minuto sa usa ka GPU

Sa usa ka bag-ong artikulo Point-E: Usa ka sistema alang sa pagmugna og 3D point clouds gikan sa komplikadong mga signal, ang OpenAI research team nagpaila sa Point E, usa ka 3D point cloud text conditional synthesis system nga naggamit sa diffusion models aron makamugna og lainlain ug komplikadong 3D shapes nga gimaneho sa komplikadong text. mga timailhan.sa mga minuto sa usa ka GPU.
Ang katingad-an nga pasundayag sa mga moderno nga modelo sa paghimo sa imahe karon nakapadasig sa panukiduki sa paghimo sa mga butang nga 3D nga teksto.Apan, dili sama sa 2D nga mga modelo, nga makamugna og output sa mga minuto o bisan mga segundo, ang object generative models kasagarang nagkinahanglan og pipila ka oras nga GPU nga trabaho aron makamugna og usa ka sample.
Sa usa ka bag-ong artikulo Point-E: Usa ka sistema sa pagmugna og 3D point clouds gikan sa komplikadong mga signal, ang OpenAI research team nagpresentar sa Point·E, usa ka textual conditional synthesis system para sa 3D point clouds.Kining bag-ong pamaagi naggamit ug propagation model aron makamugna ug lainlain ug komplikadong 3D shapes gikan sa komplikadong text signal sulod lang sa usa o duha ka minuto sa usa ka GPU.
Ang team naka-focus sa hagit sa pag-convert sa text ngadto sa 3D, nga kritikal sa pagdemokratize sa 3D content creation para sa tinuod nga kalibutan nga mga aplikasyon gikan sa virtual reality ug gaming ngadto sa industriyal nga disenyo.Ang naglungtad nga mga pamaagi sa pag-convert sa teksto ngadto sa 3D nahulog sa duha ka mga kategorya, ang matag usa adunay mga kakulian: 1) ang mga generative nga modelo mahimong magamit aron makamugna og mga sample nga episyente, apan dili makasukod sa episyente alang sa lainlain ug komplikado nga mga signal sa teksto;2) usa ka pre-trained nga text-image nga modelo sa pagdumala sa komplikado ug lain-laing mga text cues, apan kini nga pamaagi kay computationally intensive ug ang modelo daling ma-stuck sa local minima nga dili motakdo sa makahuluganon o coherent 3D objects.
Busa, ang team nagsuhid sa usa ka alternatibo nga pamaagi nga nagtumong sa paghiusa sa mga kalig-on sa ibabaw sa duha ka mga pamaagi, gamit ang usa ka text-to-image diffusion model nga gibansay sa usa ka dako nga set sa text-image nga mga pares (nagtugot niini sa pagdumala sa lain-laing ug komplikado signal) ug usa ka 3D image diffusion model nga gibansay sa mas gamay nga set sa text-image nga pares.hulagway-3D nga pares nga dataset.Ang text-to-image nga modelo una nga nagsampol sa input image aron makahimo og usa ka sintetikong representasyon, ug ang image-to-3D nga modelo nagmugna og 3D point cloud base sa pinili nga hulagway.
Ang generative stack sa command gibase sa bag-o lang nga gisugyot nga generative frameworks alang sa kondisyon nga paghimo og mga hulagway gikan sa teksto (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Gigamit nila ang usa ka modelo nga GLIDE nga adunay 3 bilyon nga mga parameter sa GLIDE (Nichol et al., 2021), gipaayo sa gihubad nga mga modelo nga 3D, ingon ilang modelo sa pagbag-o sa text-to-image, ug usa ka set sa mga modelo sa pagsabwag nga nagmugna sa mga panganod sa RGB point ingon ilang modelo sa pagbag-o.mga imahe sa imahe.3D nga mga modelo.
Samtang ang miaging trabaho migamit sa 3D nga mga arkitektura sa pagproseso sa mga point cloud, ang mga tigdukiduki migamit sa usa ka yano nga transducer-based nga modelo (Vaswani et al., 2017) aron mapalambo ang kahusayan.Sa ilang diffusion model nga arkitektura, ang mga hulagway sa point cloud una nga gipakaon ngadto sa usa ka pre-trained nga ViT-L/14 CLIP nga modelo ug dayon ang mga output meshes gipakaon ngadto sa converter isip mga marker.
Sa ilang empirical nga pagtuon, gitandi sa team ang gisugyot nga Point·E method sa ubang generative 3D models sa scoring signals gikan sa COCO object detection, segmentation, ug signature datasets.Ang mga resulta nagpamatuod nga ang Point·E makahimo sa pagmugna ug lainlain ug komplikadong 3D nga mga porma gikan sa komplikadong mga signal sa text ug pagpadali sa inference time sa usa ngadto sa duha ka order sa magnitude.Ang team naglaum nga ang ilang trabaho makadasig sa dugang nga panukiduki sa 3D text synthesis.
Usa ka pretrained point cloud propagation model ug evaluation code anaa sa GitHub sa proyekto.Document Point-E: Usa ka sistema sa paghimo sa 3D point clouds gikan sa komplikadong mga clue naa sa arXiv.
Nahibal-an namon nga dili nimo gusto nga makalimtan ang bisan unsang balita o nadiskobrehan sa siyensya.Mag-subscribe sa among sikat nga Synced Global AI Weekly nga newsletter aron makadawat matag semana nga mga update sa AI.

Oras sa pag-post: Dis-28-2022