LIBRISTO
LIBROAMANTO
υποχρεωτικό
Γίνετε μέλος μιας κοινότητας βιβλιόφιλων από όλο τον κόσμο και επωφεληθείτε από πολλά προνόμια. Δημιουργία δωρεάν λογαριασμού
0
Δωρεάν αποστολή με Box Now άνω των 69.99 €
DHL courier 9.99 Σημείο Elta 3.99 Elta 4.49 ACS 4.99 Σημείο ACS 4.99 Box Now 3.99

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Γλώσσα ΑγγλικήΑγγλική
Βιβλίο Χαρτόδετο
Βιβλίο AI Inference Optimization Engineering ChatVariety Team
Κωδικός Libristo: 52770465
ΕΕκδοτικός οίκος Independently published, Ιούνιος 2026
Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Πλήρης περιγραφή
? points 29 b Προετοιμαζουμε Προετοιμαζουμε Νέα Νέα
11.91
Αναμενόμενος εφοδιασμός σε αποθέματα Έκδοση 07. 06. 2026
Ελλάδα Παράδοση στην Ελλάδα

30 ημέρες για την επιστροφή των προϊόντων

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:
  • Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
  • State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
  • Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
  • Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
  • Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Ηθοποιός & Πολύγλωσση
EWA KASP για
Αναπαραγωγή βίντεο
Ewa Kasp
το Libristo διαθέτει τη μεγαλύτερη επιλογή ξενόγλωσσων βιβλίων. Γι' αυτό αγοράζω τα βιβλία μου εδώ.

Πληροφορίες για το βιβλίο

Πλήρες όνομα AI Inference Optimization Engineering
Συγγραφέας ChatVariety Team
Γλώσσα Αγγλική
Βιβλιοδεσία Βιβλίο - Χαρτόδετο
Ημερομηνία έκδοσης 2026
Αριθμός σελίδων 96
EAN 9798199720021
Κωδικός Libristo 52770465
ΕΕκδοτικός οίκος Independently published
Βάρος 142
Διαστάσεις 152 x 229 x 5
Χαρίστε αυτό το βιβλίο σήμερα
Είναι εύκολο
1 Προσθέστε το βιβλίο στο καλάθι σας και επιλέξτε παράδοση ως δώρο 2 Ως ανταμοιβή θα σας στείλουμε ένα κουπόνι 3 Το βιβλίο θα φτάσει στη διεύθυνση του παραλήπτη

Είσοδος

Συνδεθείτε στο λογαριασμό σας Δεν έχετε ακόμη λογαριασμό στο Libristo; Δημιουργήστε τον τώρα!

 
υποχρεωτικό
υποχρεωτικό

Δεν έχετε λογαριασμό; Αποκτήστε τα οφέλη ενός λογαριασμού Libristo!

Με έναν λογαριασμό Libristo, θα έχετε τον απόλυτο έλεγχο.

Δημιουργία λογαριασμού Libristo