Ұшқындағы өзектер мен орындаушылар дегеніміз не?

Сұрақ қойған: Данчо Лазага | Соңғы жаңартылған күні: 12 сәуір, 2020 ж
Санат: деректерді сақтау және сақтау технологиясы және есептеу
3.9/5 (1,774 қаралды. 34 дауыс)
Ядролар : ядро – бұл орталық процессордың негізгі есептеу бірлігі және орталық процессорда берілген уақытта тапсырмаларды орындау үшін бір немесе бірнеше ядролар болуы мүмкін. Неғұрлым көп өзектеріміз болса, соғұрлым көп жұмыс жасай аламыз. Spark ішінде бұл орындаушы орындай алатын параллельді тапсырмалар санын басқарады.

Бұдан басқа, ұшқындағы орындаушылар қандай?

Орындаушылар - берілген Spark тапсырмасында жеке тапсырмаларды орындауға жауапты жұмысшы түйіндерінің процестері. Олар Spark қолданбасының басында іске қосылады және әдетте қолданбаның бүкіл қызмет ету мерзімі бойы жұмыс істейді. Тапсырманы орындағаннан кейін олар нәтижелерді драйверге жібереді.

Сонымен қатар, ұшқын ядросы дегеніміз не? Spark Core бүкіл Spark жобасының негізгі бөлігі болып табылады. Ол тапсырмаларды жіберу, жоспарлау және енгізу-шығару операциялары, т.б. сияқты барлық функцияларды қамтамасыз етеді. Spark RDD (Resilient Distributed Dataset) деп аталатын арнайы деректер құрылымын пайдаланады. Бұл RDD-ді анықтайтын және басқаратын API үйі.

Мұнда, spark-те орындаушылар санын қалай таңдауға болады?

Қолда бар орындаушылардың саны = (жалпы ядролардың / шт-ядролардың-түзу орындаушысы) = = 30. 150/5 Node = 30/10 = 3 бір орындаушылардың ApplicationManager => --num- орындаушылар = 29 саны үшін 1 орындаушысын қалдыру Әр орындаушыға жады = 64 ГБ/3 = 21 ГБ.

Spark жіпті орындаушы жадының үстеме үсті не үшін қолданылады?

Ұшқынның мәні. жіп . орындаушы . memoryOverhead меншік әрбір орындаушыға арналған жіп, толық жад сұрау анықтау үшін орындаушыға еске қосылады.

30 қатысты сұрақтың жауаптары табылды

Әдепкі spark орындаушы жады дегеніміз не?

Spark бағдарламасында орындаушы жады жалаушасы орындаушының үйме өлшемін басқарады (ұқсас YARN және Slurm үшін), әдепкі мән әр орындаушы үшін 512 МБ .

Spark-те орындаушы жады дегеніміз не?

Әрбір ұшқын қолданбасында әрбір жұмысшы түйінінде бір орындаушы болады. Орындаушы жады - бұл қолданба жұмысшы түйінінің қанша жады пайдаланатынын көрсететін өлшем.

Орындаушы ұшқында сәтсіз болғанда не болады?

Жұмысшы түйінінің сәтсіздігі – Spark кластеріндегі қолданба кодын іске қосатын түйін Spark жұмысшы түйіні болып табылады. Орындаушыны іске қосатын жұмыс түйіндерінің кез келгені сәтсіздікке ұшырауы мүмкін , осылайша жадтың жоғалуына әкеледі. Кез келген қабылдағыш сәтсіз түйіндерде жұмыс істеп тұрса, олардың буфер деректері жоғалады.

Ұшқын жұмысын қалай реттеуге болады?

Келесі бөлімдер жалпы Spark жұмысын оңтайландырулар мен ұсыныстарды сипаттайды.
  1. Деректер абстракциясын таңдаңыз.
  2. Оңтайлы деректер пішімін пайдаланыңыз.
  3. Әдепкі жадты таңдаңыз.
  4. Кэшті пайдаланыңыз.
  5. Жадты тиімді пайдаланыңыз.
  6. Деректерді сериялауды оңтайландыру.
  7. Шелектеуді қолданыңыз.
  8. Біріктірулер мен араластыруларды оңтайландыру.

Драйвер мен орындаушы жадын spark режимінде қалай орнатуға болады?

Сіз мұны екі жолмен де жасай аласыз:
  1. оны сипаттар файлында орнату (әдепкі $SPARK_HOME/conf/spark-defaults.conf), spark.driver.memory 5g.
  2. немесе $ ./bin/spark-shell --driver-memory 5g орындалу уақытында конфигурация параметрін қамтамасыз ету арқылы.

Spark ішіндегі NUM орындаушы дегеніміз не?

- NUM - орындаушылар шынымен іске болады өтінімдерді жалпы санын анықтайды орындаушылардың санын анықтайды. Әр орындаушыға /қолданбаға қанша процессор өзегі қолжетімді екенін анықтайтын -- орындаушы -ядроларын көрсетуге болады.

Жергілікті режимде spark қалай іске қосылады?

Жергілікті режимінде ұшқын жұмыс орындары бір машинада іске, және көпағымдықты пайдаланып параллель орындалады: Құрылғының ядролардың санына (ең көп) осы шектейді параллелизм. Тапсырмаларды жергілікті режимде іске қосу үшін алдымен интерактивті режимде SLURM арқылы машинаны резервтеу және оған кіру қажет.

RDD бөлімі дегеніміз не?

Тұрақты үлестірілген деректер жиындары ( RDD ) нысандардың қарапайым және өзгермейтін таратылған жиыны болып табылады. Әрбір RDD кластердің әртүрлі түйіндерінде есептелуі мүмкін бірнеше бөлімдерге бөлінген. Spark бағдарламасында әрбір функция тек RDD құрылғыларында орындалады.

Біріктіру ұшқында қалай жұмыс істейді?

coalesce араласқан деректер көлемін азайту үшін бар бөлімдерді пайдаланады. repartition жаңа бөлімдерді жасайды және толық араластыруды орындайды. біріктіру деректер көлемі әртүрлі бөлімдерге әкеледі (кейде әртүрлі өлшемдері бар бөлімдер) және қайта бөлу шамамен бірдей өлшемді бөлімдерге әкеледі.

Spark кезеңдері дегеніміз не?

Apache Spark бағдарламасында кезең - орындаудың физикалық бірлігі. Бұл физикалық орындау жоспарындағы қадам деп айта аламыз. Бұл параллель тапсырмалар жиынтығы — әр бөлімге бір тапсырма. Басқаша айтқанда, әрбір жұмыс тапсырмалардың кішігірім жинақтарына бөлінеді, сіз оны кезең деп атайсыз . Өйткені кезең тек бір RDD бөлімдерінде жұмыс істей алады.

Spark орындаушы даналары дегеніміз не?

орындаушы . инстанциялар тек сұрау ғана. Қолданбаңызға арналған Spark ApplicationMaster бағдарламасы YARN ResourceManager қызметіне контейнерлер саны = spark сұрауын жасайды. орындаушы . даналары .

Spark сериализациясы дегеніміз не?

Spark туралы кейбір фактілер.
Нысанды сериялау оның күйін байт ағынын нысанның көшірмесіне қайтару үшін түрлендіруді білдіреді. Java нысаны, егер оның класы немесе оның супер классының кез келгені java-ны іске асырса, сериялауға болады. io. Серияланатын интерфейс немесе оның ішкі интерфейсі, java.

Spark тапсырмалар санын қалай есептейді?

2. Орындалатын тапсырмалардың саны немен анықталады? сондықтан rdd3 есептелгенде, spark rdd1 бөлімі үшін тапсырма жасайды және әрекетті орындау арқылы әрбір тапсырма rdd3 нәтижесін алу үшін әр жолға сүзгіні де, картаны да орындайды. Бөлімдердің саны тапсырмалардың санын анықтайды.

Ұшқын кластері қалай жұмыс істейді?

Apache Spark - бұл үлкен көлемдегі деректерді өңдеу және талдау үшін пайдаланылатын ашық бастапқы, жалпы мақсаттағы бөлінген есептеуіш қозғалтқыш. Hadoop MapReduce сияқты, ол да деректерді кластер бойынша тарату және деректерді параллель өңдеу үшін жүйемен жұмыс істейді . Әрбір орындаушы жеке java процесі болып табылады.

Spark контексті дегеніміз не?

SparkContextSpark орындау ортасының клиенті және ол Spark қолданбасының шебері ретінде әрекет етеді. SparkContext ішкі қызметтерді орнатады және Spark орындау ортасына қосылымды орнатады.

Ұшқынның құрамдас бөліктері қандай?

Төменде Apache Spark экожүйесінде Apache Spark- Spark Core , Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX ​​және SparkR мүмкіндіктерін беретін 6 құрамдас берілген.

Ұшқын драйвері дегеніміз не?

Ұшқын драйвері - бұл деректердің RDD-де түрлендірулер мен әрекеттерді жариялайтын және осындай сұрауларды шеберге жіберетін бағдарлама. Практикалық мағынада драйвер берілген Spark Master бағдарламасына қосылатын SparkContext құрайтын бағдарлама.