Мазмұны:

Hadoop-тағы әртүрлі файл пішімдері қандай?
Hadoop-тағы әртүрлі файл пішімдері қандай?

Бейне: Hadoop-тағы әртүрлі файл пішімдері қандай?

Бейне: Hadoop-тағы әртүрлі файл пішімдері қандай?
Бейне: How to Build and Install Hadoop on Windows 2024, Қараша
Anonim

Бақытымызға орай, үлкен деректер қауымдастығы негізінен үш оңтайландырылғанға қоныстанды файл пішімдері пайдалануға арналған Hadoop кластерлер: Оңтайландырылған жол бағанасы (ORC), Avro және Паркет.

Әрі қарай, деректер пішімдерінің әртүрлі түрлері қандай?

Үшеуі бар деректер түрлері карталау және ГАЖ деректер форматтары . Әрбір түрі басқаша өңделеді.

Деректер пішімінің түрлері

  • Файлға негізделген- Shapefiles, Microstation Design Files (DGN), GeoTIFF кескіндері.
  • Каталог негізіндегі - ESRI ArcInfo Coverages, US Census TIGER.
  • Мәліметтер базасының қосылымдары – PostGIS, ESRI ArcSDE, MySQL.

Сонымен қатар, ұяшықта қай файл пішімі жақсы? RCFile - жол бағаналы файл пішімі . Бұл басқа түрі Hive файл пішімі ол жоғары қатар деңгейін сығу жылдамдығын ұсынады. Егер сізде бір уақытта бірнеше қатарды орындау қажет болса, RCFile файлын пайдалануға болады пішім.

Осыны ескере отырып, Hadoop-та қандай жалпы енгізу пішімдері бар?

InputFormat Inputsplit жасайды

  • Ең көп тараған енгізу пішімі:
  • FileInputFormat- Бұл барлық файлға негізделген InputFormat үшін негізгі класс.
  • TextInputFormat- бұл MapReduce файлының әдепкі енгізу пішімі.
  • KeyValueTextInputFormat- Ол TextInputFormat форматына ұқсас.
  • Hadoop ішіндегі InputFormat туралы көбірек білу үшін сілтемені орындаңыз.

Hadoop ішіндегі orc файл пішімі дегеніміз не?

ORC файл пішімі Оңтайландырылған жол бағанасы ( ORC ) файл пішімі Hive деректерін сақтаудың жоғары тиімді жолын қамтамасыз етеді. Ол басқа Hive шектеулерін еңсеру үшін жасалған файл пішімдері . Қолдану ORC файлдары Hiveis деректерді оқу, жазу және өңдеу кезінде өнімділікті жақсартады.

Ұсынылған: